조사방법론 | 5. 데이터 처리
1 데이터 처리 개요
| 단계 | 내용 |
|---|---|
| 데이터 수집 | 온라인·전화·대면·우편 등 방법으로 응답을 체계적으로 취합 |
| 텍스트 코딩 | 자유응답형 응답을 코딩 기준에 따라 범주화·수치화 |
| 데이터 입력 | 응답 정보를 전산화된 DB로 이중 검증하며 저장 |
| 편집·오류 확인 | 논리적 불일치·이상치·무응답 탐지 및 수정 |
| 결측값 대체 | 평균·회귀·다중 대체 등 통계적 기법으로 누락값 보완 |
| 가중치 생성 | 층화·비응답 보정·사후 층화로 모집단 대표성 확보 |
| 분산 추정 | 설계효과를 고려한 표준오차·신뢰구간 산출 |
설문조사 데이터 처리 단계는 전체 분석의 신뢰성과 타당성을 확보하기 위한 일련의 핵심 절차로, 수집된 원자료(raw data)를 정제하고 분석 가능한 형식으로 전환하는 과정이다. 이 단계는 단순히 데이터를 저장하거나 정리하는 수준을 넘어, 조사 설계의 오류를 최소화하고 결과 해석의 타당성을 높이는 데 목적이 있다.
가중치 생성은 조사 표본이 실제 모집단을 얼마나 잘 대표하는지를 보정하기 위한 단계로, 층화 변수(예: 성별, 연령, 지역) 기반의 보정 가중치, 비응답 보정, 사후 층화(post-stratification) 등이 사용된다. 마지막으로 분산 추정은 분석 결과의 불확실성을 측정하는 단계로, 표준 오차, 신뢰구간 등을 산출한다.
전체적으로 이 과정은 단순한 데이터 정리의 수준을 넘어서, 분석의 정합성과 재현 가능성을 높이기 위한 필수 절차로 기능하며, 설문조사의 신뢰성과 타당성을 실질적으로 결정짓는 핵심 단계라 할 수 있다.
1.1 데이터 코딩
설문 조사에서 코딩은 응답 데이터를 정형화하여 분석 가능한 형태로 전환하는 과정으로, 전체 데이터 품질과 해석의 정확성을 좌우하는 핵심 단계다.
- 예비 분석: 수집된 응답을 검토하여 공통 패턴을 파악한다. 응답 내용을 기반으로 주요 범주를 설정한다.
- 코드북 개발: 응답을 분류할 코드 체계를 설계한다. 예를 들어, 산림 활용 관련 개방형 질문이 있다면, 1 = 목재 생산, 2 = 레크리에이션(산림욕, 캠핑 등), 3 = 환경 보호, 4 = 연구 및 교육, 5 = 기타
- 응답 매핑: 개별 응답을 코드북에 따라 적절한 코드로 변환한다. 응답이 여러 개의 범주에 해당할 경우, 우선순위 규칙을 적용하거나 다중 코드를 허용할 수 있다.
- 신뢰성 검토: 여러 명의 분석자가 같은 응답을 동일한 코드로 부여하는지 확인한다. 코딩 일관성 검증을 위해 상호 신뢰도 테스트를 수행한다.
1.1.1 코딩의 본질
코딩은 단순히 텍스트를 숫자로 바꾸는 기계적 과정이 아니라, 조사 응답 내용을 분석이 가능한 형태로 요약하고 구조화하는 핵심 작업이다.
코드 구조의 지속적인 검토와 개선
코딩 구조는 한 번 설정하고 끝나는 것이 아니라, 응답 자료의 다양성과 변화하는 조사 환경에 맞춰 지속적으로 검토하고 개선해야 한다. 예를 들어, 기존의 산림 이용 목적을 ‘목재 생산’, ‘관광’, ‘사유림 보존’ 등으로 분류하던 코드 체계는 ’탄소중립을 위한 산림 보전’과 같은 새로운 응답 내용을 충분히 설명하지 못할 수 있다.
모든 응답을 포괄할 수 있는 코딩 체계를 설계하는 것은 데이터의 완전성과 분석의 정확성을 확보하는 데 필수적이다. 특수 응답(무응답, 해당 없음, 거부)에 대한 별도 코드 체계를 마련하는 것은 데이터 누락이나 분석 왜곡을 방지하는 데 큰 역할을 한다.
결론 및 시사점
코딩은 단순히 응답을 숫자로 변환하는 기술적 절차를 넘어, 조사 목적에 맞는 응답 내용을 요약하고 구조화하는 해석적 과정이다. 이를 위해 코드의 수와 범주 분류 체계는 분석 목표에 부합하도록 신중하게 설계되어야 하며, 이 과정에서 상호 배타성과 포괄성이라는 원칙을 동시에 충족해야 한다. 결론적으로, 코딩 체계의 설계와 유지보수는 단순한 데이터 정리 작업이 아니라, 조사 데이터의 질을 결정짓는 핵심적인 과정으로 이해되어야 하며, 그 중요성은 설문 설계 초기 단계부터 반영되어야 한다.
1.1.2 필드 코딩
필드 코딩의 개념
필드 코딩은 설문조사 현장에서 개방형 질문의 장점과 폐쇄형 질문의 효율성을 결합한 방식으로, 조사원이 응답자의 자유로운 진술을 들은 직후, 해당 응답을 사전에 정의된 코드 범주 중 하나로 분류하는 실시간 코딩 기법이다.
필드 코딩의 절차
- 응답자에게 개방형 질문을 제시 → 자유롭게 서술형 응답을 하도록 유도한다.
- 조사원이 즉시 응답을 해석 → 해당 응답이 포함될 수 있는 코드 범주를 검토한다.
- 사전 정의된 코드 리스트와 비교하여 적절한 코드 선택 → 가장 적합한 카테고리에 배정한다.
- 코딩을 완료하고 데이터 저장 → 이후 데이터 분석에서 활용 가능하도록 정리한다.
필드 코딩 장단점
| 구분 | 항목 | 설명 |
|---|---|---|
| 장점 | 즉각적인 코딩 가능 | 응답을 수집하면서 동시에 코딩을 수행하여 사후 코딩 과정이 불필요 |
| 장점 | 질문에 대한 깊이 있는 탐색 가능 | 인터뷰어가 응답 내용을 추가로 탐색하여 보다 정확한 분류 가능 |
| 장점 | 응답자의 자유도 보장 | 완전한 폐쇄형 질문과 달리, 응답자의 입장에서 보다 자연스러운 답변 제공 가능 |
| 단점 | 인터뷰어의 해석에 따른 오류 발생 가능 | 같은 응답이라도 조사자마다 코드 부여 방식이 다를 수 있음 |
| 단점 | 실시간 처리의 부담 | 조사원이 실시간으로 응답을 분석하고 코드화해야 하므로 부담이 클 수 있음 |
| 단점 | 복잡한 코드 체계의 경우 어려움 | 코드의 수가 많거나 복잡하면 인터뷰어가 즉시 적절한 범주를 선택하기 어려울 수 있음 |
필드 코딩과 사후 코딩 비교
| 구분 | 필드 코딩 | 오피스 코딩 |
|---|---|---|
| 코딩 시점 | 실시간 코딩 (인터뷰 진행 중) | 조사 후 코딩 (설문 응답을 저장한 후) |
| 책임자 | 조사원이 직접 코드화 | 전문 코더가 응답을 해석하여 코드화 |
| 장점 | 즉각적인 데이터 정리 가능, 추가 탐색 가능 | 보다 체계적이고 일관성 있는 코딩 가능 |
| 단점 | 인터뷰어의 주관 개입 가능, 실시간 처리 부담 | 시간이 많이 소요됨, 사후 코드 검토 필요 |
1.1.3 코딩 품질 지표
코딩 과정에서 발생할 수 있는 개념적 오류나 실행의 비일관성은 설문조사 데이터의 신뢰성과 타당성에 중대한 영향을 미친다.
코더 변량 coder variance
코딩 구조의 취약점
코딩 구조가 취약하게 설계될 경우, 의미적으로 서로 다른 응답이 동일한 코드 범주에 포함되어 분석 결과에 왜곡을 초래할 수 있다. 예를 들어, 학력을 기준으로 소득을 분석할 때 “고등학교 졸업”이라는 항목에 정규 고등학교 졸업자와 검정고시 합격자가 동일하게 포함되면, 두 집단 간 경험과 사회적 배경의 차이를 간과하게 된다. 따라서 코딩 구조는 분석 목적과 변수의 의미를 충분히 반영하도록 정교하게 설계되어야 하며, 애매하거나 복합적인 응답에 대해 세분화된 코드 범주를 마련하는 것이 체계적인 오류를 줄이는 핵심이다.
코더 변량이 조사 결과에 미치는 영향
코더 변량이 조사 결과에 미치는 영향은 작지만 무시할 수 없는 수준이다. 비록 동일한 코드 구조를 사용하더라도, 코더는 개인의 판단과 해석 방식에 따라 동일한 응답을 다르게 분류할 수 있다. 이는 표준 오차의 증가로 이어져 결과 해석 시 통계적 불확실성을 높이는 요인이 된다. 따라서 코딩 매뉴얼의 명확화, 반복 교육, 이중 코딩(double coding)을 통한 검증 과정이 중요하다.
1.2 수치 데이터를 파일에 입력하기
데이터 입력의 개념
데이터 입력, 또는 데이터 캡처는 설문조사 과정에서 수집된 정보를 전자적 형태로 전환하는 단계로, 분석을 위한 기초 작업 중 하나이다.
인간 데이터 입력 방식의 한계
인간이 직접 수행하는 데이터 입력 방식은 여러 가지 한계를 가지고 있다. 가장 큰 문제는 높은 인건비와 시간 소요이다. 100% 재입력(Double Data Entry) 또는 2인 검증 등의 절차가 수행되지만, 사람의 실수로 인한 오류 가능성은 완전히 제거되지 않는다. 이러한 한계를 극복하고자 최근에는 컴퓨터 지원 데이터 수집(CAPI, CAWI 등) 방식이 선호되고 있다.
1.3 데이터 편집 editing
데이터 편집의 개념
데이터 편집은 설문조사에서 수집된 응답 자료가 통계 분석에 적합하도록 정제하는 초기 단계로, 데이터의 정확성과 논리적 일관성을 확보하는 데 필수적인 과정이다.
데이터 편집 주요 유형
| 편집 유형 | 설명 | 예시 |
|---|---|---|
| 범위 편집 | 데이터 값이 허용된 범위 내에 있는지 확인 | 연령 값이 1개월 이상, 120년 이하인지 검사 |
| 비율 편집 | 특정 값 간 비율이 논리적으로 맞는지 확인 | 농장에서 생산된 우유 갤런 수와 젖소의 수 비율이 적절한지 확인 |
| 이력 데이터 비교 | 이전 조사 데이터와 비교하여 일관성을 점검 | 1차 조사와 2차 조사에서 가구원 수가 유사한지 확인 |
| 균형 편집 | 여러 변수의 합이 일정해야 하는 경우 확인 | 집·직장·기타 장소에서 보낸 시간의 합이 100%인지 검사 |
| 최대·최소 값 확인 | 비정상적으로 크거나 작은 값이 존재하는지 검사 | 극단적인 소득 값이 존재하는지 확인 |
| 일관성 편집 | 논리적 관계가 성립하는지 점검 | 12세 미만 응답자의 혼인 상태는 ’미혼’이어야 함 |
CAPI와 편집
데이터 편집 발전
데이터 편집의 방식은 전통적인 수작업 중심에서 점점 더 규칙 기반(rule-based) 및 컴퓨터 지원 방식으로 진화하고 있다. 최신 편집 시스템은 점차 전문가 지식과 인공지능(AI) 기반 알고리즘을 활용하는 방향으로 발전하고 있다.
2 가중치 산정
조사 표본에서 가중치는 통계적 추정의 정확성을 높이고, 모집단을 보다 대표할 수 있도록 설계상의 왜곡과 응답 편향을 보정하는 데 사용된다.
가중치는 단일 방식으로 계산되지 않으며, 조사 설계의 복잡도와 조사 목적에 따라 다양한 조정 절차가 적용된다. 이렇게 다단계로 조정된 최종 가중치는 분석 단계에서 반드시 반영되어야 하며, 그렇지 않으면 모집단을 왜곡하는 결과를 초래할 수 있다.
2.1 단계 비율 조정 가중치
다단계 표본 설계에서는 모집단 전체를 한 번에 추출하지 않고, 여러 단계를 거쳐 표본을 선택한다. 이때 각 단위의 선택 확률이 서로 다르게 되므로, 이를 보정하기 위한 가중치가 필요하다. 이 가중치는 보통 “확률의 역수”로 정의되며, 어떤 단위가 선택될 확률이 작을수록 더 큰 가중치를 갖는다.
1단계 비율 조정 가중치 개념
1단계 비율 조정 가중치는 다단계 표본 설계에서 균등 확률 표본(EPSM: Equal Probability Sample)을 실현하기 위해 사용되는 보정 방식이다.
\[\text{Estimated Stratum Population Total} = \frac{\text{Population Total in Selected PSU}}{\text{Probability of Selecting PSU}}\]
실질적인 가중치 적용
1단계에서 선택된 PSU에 포함된 모든 조사 대상자에게 동일한 1단계 비율 조정 가중치(\(W_{i1}\))가 부여된다. 이 \(W_{i1}\)이 기초 가중치로서 출발점이 된다.
2.2 차등 선택 확률 가중치
이처럼 차등 배분은 분석의 정확도를 높이는 동시에, 대표성 유지를 위해 가중치 조정이 필수적이라는 점을 잘 보여준다.
비례 배분(EPSEM, Equal Probability Selection Method)
표본이 모집단의 주요 특성 분포를 그대로 반영하도록 설계된 추출 방식이다. 이러한 방식에서는 모든 단위가 동일한 선택 확률을 가지므로, 분석 과정에서 추가적인 가중치를 적용할 필요가 없다.
차등 배분(Disproportionate Allocation)
차등 배분(disproportionate allocation)은 표본 추출 시 특정 집단의 표본 수를 인위적으로 조정하는 방식으로, 특히 드문 특성을 조사할 때 통계적 정밀도를 확보하기 위해 사용된다.
차등 배분을 실시할 경우, 각 응답자의 응답은 그가 속한 집단의 모집단 대비 표본 비율의 역수만큼 가중치를 부여받는다.
가중치 조정이 필요한 이유
차등 배분을 활용한 조사에서는 특정 집단의 표본 수를 인위적으로 늘려 분석의 정밀도를 확보할 수 있지만, 그만큼 가중치 조정이 반드시 필요하다.
2.3 단위 무응답 조정을 위한 가중치
2.3.1 무응답의 문제와 표본 구성
성폭력 피해 조사는 주제의 민감성으로 인해 응답률이 낮을 수 있으며, 특히 성별에 따라 응답률이 상이하게 나타나는 경향이 있다. 위의 예시에서와 같이 모집단은 남성 600명(60%), 여성 400명(40%)으로 구성되어 있고, 이 구조를 반영한 비례 배분으로 표본 200명을 선정하여 남성 120명, 여성 80명이 포함되었다고 가정하자.
그러나 실제 조사에 응답한 인원은 성별 응답률에 따라 다음과 같이 달라진다.
- 남성 응답률: 90% → 120명 중 108명 응답
- 여성 응답률: 75% → 80명 중 60명 응답
결과적으로 여성은 원래 모집단에서 40%를 차지했음에도 불구하고, 실제 응답자 중에서는 약 35.7%로 과소 대표되는 문제가 발생한다.
2.3.2 무응답 조정 가중치 계산
2.4 사후 가중치
2.4.1 사후 층화 가중치 개념
사후 층화 가중치(post-stratification weight)는 조사 과정에서 마지막으로 수행되는 가중치 조정 절차로, 조사 표본이 실제 모집단 분포와 최대한 일치하도록 조정하는 데 목적이 있다.
- 사후 층화는 모집단 외부 정보를 기준으로 최종적으로 가중치를 조정하는 방식이다.
- 기존 가중치 적용만으로는 실제 모집단 분포와 완전히 일치하지 않을 수 있으며, 그 차이를 보정하기 위해 필수적이다.
- 대표성을 더욱 높이고자 하는 실증연구나 공공통계 생산에서 정확하고 현실적인 추정값을 제공하는 데 중요한 역할을 한다.
2.4.2 사후 층화 가중치 적용 방법
모집단이 여성 52%, 남성 48%인데 표본의 가중치 분포가 50:50이라면, 다음과 같이 조정한다.
- 남성 가중치 감소: \(\frac{0.48}{0.50} = 0.96\) (4% 감소)
- 여성 가중치 증가: \(\frac{0.52}{0.50} = 1.04\) (4% 증가)
가중 평균을 통한 성폭력 피해율 추정
남성과 여성의 피해율이 각각 10%, 30%일 경우, 사후 층화 가중치를 반영한 최종 성폭력 피해율은 다음과 같이 계산된다.
\[\text{추정 피해율} = \frac{(10\% \times 576.0) + (30\% \times 416.0)}{576.0 + 416.0} = 18.39\%\]
3 결측치 대체
조사에서 항목 무응답(item nonresponse)은 응답자가 전체 설문에는 참여했지만 특정 문항에는 답변하지 않는 현상을 의미한다. 이처럼 항목 무응답이 누적되면 해당 변수에 대한 분석이 어려워지고, 전체 조사 결과의 신뢰도와 대표성에도 영향을 미칠 수 있다.
3.1 결측값을 처리하는 방법
결측값을 무시하는 방법
결측값을 무시하는 방법은 조사 데이터에서 특정 항목에 응답하지 않은 사례를 통째로 제외하고 나머지 완전한 응답만을 가지고 분석을 수행하는 방식이다. 이는 완전 사례 분석(complete case analysis) 혹은 사례 삭제(casewise deletion)라고 불린다.
장점은 분석이 매우 단순하고 직관적이라는 데 있다. 하지만 결측이 무작위로 발생하지 않을 경우, 특정 응답자 집단에서 결측이 집중된다면 표본의 대표성이 왜곡될 수 있다. 따라서 무작위 결측(missing completely at random, MCAR) 조건이 충족되지 않을 경우에는 대체 방법의 도입이 바람직하다.
결측값을 보완하는 방법
결측값을 보완하는 방법은 분석 대상 데이터에서 누락된 값을 합리적인 방식으로 예측하거나 추정하여 채우는 절차를 말하며, 이를 일반적으로 결측값 대체(imputation)라고 한다.
3.1.1 결측값 대체 방법 비교
| 대체 방법 | 장점 | 단점 |
|---|---|---|
| 완전 사례 분석 | 단순·직관적, 추가 가정 없이 분석 가능 | 데이터 손실 발생, 모집단 대표성 감소 위험 |
| 평균 대체 | 계산이 간단하고 빠르며 데이터 손실 없음 | 분산 감소로 데이터 변동성이 왜곡될 가능성 |
| 확률적 대체 | 변동성을 유지하여 데이터 왜곡을 방지 | 무작위성 도입으로 결과 변동성 증가 가능 |
| 회귀 대체 | 다른 변수와의 관계를 고려하여 현실적인 값 대체 | 모델이 잘못 설정되면 왜곡된 값이 대체될 위험 |
| 핫덱 대체 | 실제 응답자 데이터로 자연스러운 대체 가능 | 유사 기준 설정이 중요, 표본 크기 작으면 부적절 |
| 다중 대체 | 불확실성을 반영하여 신뢰성 높은 결과 제공 | 계산량이 많고 통계적 해석이 다소 복잡 |
3.2 대체방법
3.2.1 평균 대체 mean imputation
평균 대체(mean imputation)는 결측값을 처리하는 가장 단순한 방식 중 하나로, 누락된 값을 해당 변수의 평균값으로 채워 넣는 방법이다. 이 방식은 계산이 간단하고, 결측값이 있다고 해서 해당 응답을 분석에서 제외하지 않아도 되므로 표본 수를 유지할 수 있다는 장점이 있다.
하지만 평균 대체는 모든 결측값이 동일한 평균값으로 채워지기 때문에, 원래 데이터가 가지고 있던 자연스러운 변동성이 줄어들게 된다. 따라서 평균 대체는 응답률이 높고 결측이 무작위로 발생한 경우에만 제한적으로 사용하는 것이 바람직하다.
3.2.2 확률적 대체 stochastic imputation
확률적 대체(stochastic imputation)는 평균 대체가 가지는 변동성 손실 문제를 보완하기 위해 고안된 방식으로, 평균값을 중심으로 하되 무작위성을 부여하여 보다 현실적인 데이터를 생성한다. 예를 들어 월소득 평균 500만원, 표준편차 100만원인 상황에서 결측이 발생했다면, \(N(500, 100^2)\)에서 임의의 값을 추출하여 대체한다.
다만 이 방법은 무작위 요소를 포함하기 때문에, 대체할 때마다 결과가 달라질 수 있다는 점에서 분석의 재현성과 일관성에 주의가 필요하다.
3.2.3 회귀 대체 regression imputation
회귀 대체(Regression Imputation)는 결측값을 보완하는 보다 정교한 방법으로, 해당 변수와 관련 있는 다른 변수들을 활용하여 결측값을 예측하는 방식이다.
\[y_{i(r)} = \alpha + \beta_{1}\text{Age}_{i(r)} + \beta_{2}\text{Edu}_{i(r)} + \beta_{3}\text{Job}_{i(r)} + e_{i(r)}\]
이 방법의 장점은, 단순 대체보다 훨씬 더 응답자 개인의 특성을 반영한 맞춤형 대체가 가능하다는 점이다. 하지만 회귀모형이 잘못 설정되면 편향된 추정치가 생성될 수 있으며, 대체된 값들이 과도한 일관성을 유발하여 분산 추정에 오류를 가져올 수 있다.
3.2.4 핫덱 대체 Hot-Deck imputation
핫덱 대체(Hot-Deck Imputation)는 결측값을 비슷한 특성을 가진 응답자의 실제 데이터로 대체하는 방법이다.
핫덱 대체 과정: ① 데이터 정렬 및 유사 집단 형성 → ② 결측값이 있는 응답자 식별 → ③ 동일 그룹 내 결측 없는 응답자의 데이터를 참조 → ④ 결측값 대체 수행
콜드덱 Cold-Deck은 과거의 다른 데이터셋이나 외부 자료에서 값을 가져와 결측값을 대체하는 방식이다. 반복되는 조사에서 일관성을 유지하는 데 유리하나, 현재 상황과 불일치할 가능성이 있다.
3.2.5 다중 대체 multiple imputation
다중 대체(Multiple Imputation)는 하나의 결측값에 대해 3~5개의 서로 다른 대체값을 생성하여 각각의 데이터셋을 구성하고 독립적으로 분석한 후, 이들의 결과를 종합하는 방법이다.
반면, 다중 대체는 계산량이 많고 구현이 복잡하다는 단점이 있다. 그럼에도 불구하고 최근에는 통계 소프트웨어에서 다중 대체 기능을 쉽게 사용할 수 있게 되어, 복잡한 조사나 사회과학 데이터 분석에서 점점 널리 활용되고 있다.
4 복합표본 분산 추정
조사 데이터는 실제 수집 과정에서 층화(stratification), 군집(clustering), 다단계 추출(multi-stage sampling), 가중치(weighting), 결측값 대체(imputation) 등의 다양한 절차가 적용되기 때문에 복잡한 구조를 지닌다. 이로 인해 실제 분산은 단순 확률 표본보다 작거나 클 수 있으며, 만약 이를 무시하고 일반적인 분산 추정 방식을 사용하면 표준 오차가 부정확하게 추정될 위험이 있다.
4.1 테일러 급수 근사법(Taylor Series Approximation)
테일러 급수 근사법(Taylor Series Linearization)은 비선형 통계량—예를 들어 비율, 평균 대비 비율, 오즈비(odds ratio)와 같은 복잡한 함수형 통계량—의 분산을 추정할 때 널리 사용되는 대표적인 방법이다.
테일러 급수 근사를 이용한 가중 평균의 분산
\[\overline{Y}_w = \frac{\sum_{i=1}^{n}w_{i}y_{i}}{\sum_{i=1}^{n}w_{i}}\]
\[\text{Var}(\overline{Y}_w) = \frac{1}{(\sum w_{i})^{2}}\left\lbrack Var(\sum w_{i}y_{i}) + {\overline{Y}}_{w}^{2}Var(\sum w_{i}) - 2{\overline{Y}}_{w}Cov(\sum w_{i}y_{i},\sum w_{i}) \right\rbrack\]
테일러 급수 근사법은 현재 복합 표본 설계 데이터를 분석할 때 가장 널리 사용되는 분산 추정 방법 중 하나다. 여러 통계 소프트웨어(SAS, Stata, SUDAAN)에서 기본 옵션으로 제공되며, 비율, 평균, 회귀 계수와 같은 다양한 통계량에 적용 가능하다.
4.2 균형 반복 복제법(Balanced Repeated Replication, BRR)
균형 반복 복제법(BRR)은 전체 표본을 여러 개의 하위 표본(Replicates)으로 나누어, 각 하위 표본에 대해 통계량을 계산한 뒤 이들의 변동성을 이용해 모집단 통계량의 분산을 추정한다.
\[\overline{Y} = \frac{1}{c}\overset{c}{\sum_{r = 1}}{\overline{Y}}_{r}, \quad Var(\overline{Y}) = \frac{1}{c(c - 1)}\overset{c}{\sum_{r = 1}}({\overline{Y}}_{r} - \overline{Y})^{2}\]
BRR의 가장 큰 장점은 복잡한 조사 설계의 구조를 반영하면서도 실제 표본의 변동성을 잘 반영할 수 있다는 점이다. 그러나 BRR을 적용하려면 각 층(stratum)마다 두 개의 1차 표본 단위(PSU)가 존재해야 한다.
4.3 잭나이프 반복 복제법(Jackknife Repeated Replication, JRR)
잭나이프 반복 복제법(JRR)은 데이터에서 하나의 표본 또는 클러스터를 순차적으로 제거하면서 반복적으로 통계량을 계산하는 방식이다. 잭나이프 방법은 계산이 비교적 단순하다는 장점을 가지며, 특히 비선형 통계량의 분산 추정에도 안정적인 결과를 제공할 수 있다.
4.4 방법 비교
테일러 급수 근사법은 가장 널리 사용되는 방식으로 일반적인 기본값으로 활용되고, BRR은 층화 구조가 명확할 때, 잭나이프는 구조가 단순하거나 반복 제거 방식이 적합할 때 선택적으로 사용된다.
5 조사 데이터 문서화 및 메타 데이터
조사 데이터는 단 한 번의 분석을 위해 수집되는 것이 아니다. 데이터 수집 이후에도 다양한 연구자가 수년에 걸쳐 반복적으로 재분석하고, 새로운 분석 목적에 맞추어 지속적으로 활용된다.
이 두 정보는 단순한 부속 자료를 넘어, 조사 데이터의 해석과 재사용 가능성을 결정짓는 핵심 도구로 기능한다.
5.1 메타 데이터
메타데이터란 조사 데이터에 대한 정보(“데이터에 대한 데이터”)를 의미하며 연구자가 데이터를 이해하고 활용할 수 있도록 제공하는 모든 정보를 포함한다.
메타데이터의 주요 유형
| 메타데이터 유형 | 설명 |
|---|---|
| 정의적 메타데이터 | 조사 대상 모집단, 표본 설계, 질문 문구, 코딩 용어 등을 설명 |
| 절차적 메타데이터 | 조사원 교육 절차, 표본 선정 방법, 데이터 수집 과정 등 조사 프로토콜을 설명 |
| 운영적 메타데이터 | 결측 데이터 비율, 데이터 수정 실패율, 평균 조사 시간, 조사원이 완료한 케이스 수 등 조사 품질 평가 정보 포함 |
| 시스템 메타데이터 | 데이터 파일 형식, 파일 위치, 데이터 검색 및 호출 방법, 변수 정의 등을 설명 |
메타데이터 예시
| 항목 | 설명 |
|---|---|
| 변수명 | AR21 (피해 보고 항목) |
| 질문 문구 | 당신의 재산이 손상되었거나 파괴된 적이 있습니까? |
| 데이터 위치 | 컬럼 140, 너비 1 |
| 결측값 처리 | -9 (무응답), -0 (모름) |
| 데이터 수준 | 가구 데이터 또는 개인 데이터 |
| 추가 메타데이터 | 표시(X)하여 해당하는 모든 항목을 선택하세요. |
메타데이터 설계의 중요성
메타데이터는 단순한 부가 정보가 아니라, 조사 데이터를 보다 효과적으로 활용할 수 있도록 지원하는 핵심 요소이다. 조사 설계 단계에서부터 메타데이터의 체계적인 구성을 고려하는 것이 중요하며, 이를 통해 조사 품질을 높이고 연구자들이 보다 쉽게 데이터를 활용할 수 있도록 해야 한다.
5.2 파라 데이터
파라데이터(paradata)는 설문 응답이라는 결과물이 생성되는 과정을 실시간으로 추적하고 기록한 행태적(behavioral) 및 기술적(technical) 정보의 집합이다.
파라데이터의 구체적 예
웹 기반 자기기입식 설문(CAWI)에서 수집되는 대표적 파라데이터:
- 각 문항에 소요된 응답 시간
- 응답자가 뒤로 가기(back) 버튼을 눌러 응답을 수정한 횟수
- 문항 미응답 또는 건너뛰기 횟수
- 키보드 입력의 정정 횟수 (backspace, delete 키 입력 빈도)
- 디바이스 정보(PC, 모바일, 태블릿 등)
면접조사(CAPI, CATI 등)에서 수집되는 대표적 파라데이터:
- 면접자가 질문을 읽는 데 걸린 시간
- 응답자가 주저하거나 이해하지 못하는 구간의 음성/행동 코딩
- 면접 시작 및 종료 시각, 소요 시간
파라데이터의 활용 목적
파라데이터는 단순히 “보조적 로그 정보”를 넘어, 응답자가 설문에 어떻게 접근했는지, 설문 시스템이 어떻게 작동했는지를 입증하는 정량적 기록이다. 특히 빅데이터 분석, 응답자 분류, AI 기반 설문 인터페이스 개발 등에서도 파라데이터의 활용 범위는 계속 확장되고 있다.
5.3 메타데이터 vs 파라데이터 비교
| 구분 | 메타데이터 (Metadata) | 파라데이터 (Paradata) |
|---|---|---|
| 정의 | 조사 데이터에 대한 기술적 정보 (데이터에 대한 데이터) | 조사 과정 중 생성되는 부차적 정보 (조사 절차의 부산물) |
| 주요 내용 | 변수명, 질문 문항, 응답 코드, 데이터 유형 등 | 응답 시간, 응답 순서, 설문 경로, 중단 여부, 장치 종류 등 |
| 사용 목적 | 데이터의 해석 및 분석 지원, 일관성 유지 | 응답 품질 평가, 비표본오차 분석, 조사 설계 개선 |
| 생성 시점 | 설문 설계 및 자료 구축 단계에서 생성 | 조사 수행(수집) 과정 중 자동적으로 생성 |
| 관리 주체 | 조사 설계자, 데이터 관리자 | 조사 시스템, 조사 소프트웨어, 응답 로그 등 자동 기록 시스템 |
| 활용 예시 | 분석 시 변수 라벨 확인, 코드북 제작, 설문 설계 문서 활용 | 응답 시간 분석을 통한 신뢰도 판단, 반복 응답 여부 확인 |
| 형식 예시 | Q1 = 성별 (1: 남자, 2: 여자), Q2 = 연령 (숫자형) |
Q1 응답 시간: 15초, 설문 중 3번 중단, 모바일 응답 |
【참고】 메타데이터는 주로 분석 전 준비 정보, 파라데이터는 분석 및 품질평가 보조 정보로 구분된다.