권세혁HOME
  • 강의노트
    • 기초수학·수리통계·조사방법
    • 기초통계·회귀·다변량분석
    • 머신러닝·딥러닝
    • AI·감성분석
  • 통계상담
  • 임업통계_인사이트
  • 놀이터_플랫폼
  • 통계이야기
  1. 【조사방법론】
  2. 📄 데이터 처리
  • 【기초수학】
    • 📄 함수
    • 📄 미분적분
    • 📄 벡터
    • 📄 행렬
  • 【수리통계】
    • 📄 확률
    • 📄 확률변수
    • 📄 유명한 분포
    • 📄 다변량확률변수
    • 📄 확률표본·난수
    • 📄 추정
    • 📄 가설검정·신뢰구간
  • 【조사방법론】
    • 📄 조사방법 기초
    • 📄 표본설계
    • 📄 설문지
    • 📄 무응답 대체
    • 📄 데이터 처리
    • 📄 조사지 척도
    • 📄 델파이·AHP·컨조인트
    • 📄 PSM 성향점수매칭

목차

  • 1 데이터 처리 개요
    • 1.1 데이터 코딩
      • 1.1.1 코딩의 본질
      • 1.1.2 필드 코딩
      • 1.1.3 코딩 품질 지표
    • 1.2 수치 데이터를 파일에 입력하기
    • 1.3 데이터 편집 editing
  • 2 가중치 산정
    • 2.1 단계 비율 조정 가중치
    • 2.2 차등 선택 확률 가중치
    • 2.3 단위 무응답 조정을 위한 가중치
      • 2.3.1 무응답의 문제와 표본 구성
      • 2.3.2 무응답 조정 가중치 계산
    • 2.4 사후 가중치
      • 2.4.1 사후 층화 가중치 개념
      • 2.4.2 사후 층화 가중치 적용 방법
  • 3 결측치 대체
    • 3.1 결측값을 처리하는 방법
      • 3.1.1 결측값 대체 방법 비교
    • 3.2 대체방법
      • 3.2.1 평균 대체 mean imputation
      • 3.2.2 확률적 대체 stochastic imputation
      • 3.2.3 회귀 대체 regression imputation
      • 3.2.4 핫덱 대체 Hot-Deck imputation
      • 3.2.5 다중 대체 multiple imputation
  • 4 복합표본 분산 추정
    • 4.1 테일러 급수 근사법(Taylor Series Approximation)
    • 4.2 균형 반복 복제법(Balanced Repeated Replication, BRR)
    • 4.3 잭나이프 반복 복제법(Jackknife Repeated Replication, JRR)
    • 4.4 방법 비교
  • 5 조사 데이터 문서화 및 메타 데이터
    • 5.1 메타 데이터
    • 5.2 파라 데이터
    • 5.3 메타데이터 vs 파라데이터 비교
  1. 【조사방법론】
  2. 📄 데이터 처리

조사방법론 | 5. 데이터 처리

Author

권세혁

1 데이터 처리 개요

정의

데이터 처리(Data Processing)는 수집된 원자료(raw data)를 정제하고 분석 가능한 형식으로 전환하는 일련의 핵심 절차로, 설문조사 결과의 신뢰성과 타당성을 실질적으로 결정짓는 과정이다.

데이터 처리의 주요 단계
단계 내용
데이터 수집 온라인·전화·대면·우편 등 방법으로 응답을 체계적으로 취합
텍스트 코딩 자유응답형 응답을 코딩 기준에 따라 범주화·수치화
데이터 입력 응답 정보를 전산화된 DB로 이중 검증하며 저장
편집·오류 확인 논리적 불일치·이상치·무응답 탐지 및 수정
결측값 대체 평균·회귀·다중 대체 등 통계적 기법으로 누락값 보완
가중치 생성 층화·비응답 보정·사후 층화로 모집단 대표성 확보
분산 추정 설계효과를 고려한 표준오차·신뢰구간 산출

설문조사 데이터 처리 단계는 전체 분석의 신뢰성과 타당성을 확보하기 위한 일련의 핵심 절차로, 수집된 원자료(raw data)를 정제하고 분석 가능한 형식으로 전환하는 과정이다. 이 단계는 단순히 데이터를 저장하거나 정리하는 수준을 넘어, 조사 설계의 오류를 최소화하고 결과 해석의 타당성을 높이는 데 목적이 있다.

가중치 생성은 조사 표본이 실제 모집단을 얼마나 잘 대표하는지를 보정하기 위한 단계로, 층화 변수(예: 성별, 연령, 지역) 기반의 보정 가중치, 비응답 보정, 사후 층화(post-stratification) 등이 사용된다. 마지막으로 분산 추정은 분석 결과의 불확실성을 측정하는 단계로, 표준 오차, 신뢰구간 등을 산출한다.

전체적으로 이 과정은 단순한 데이터 정리의 수준을 넘어서, 분석의 정합성과 재현 가능성을 높이기 위한 필수 절차로 기능하며, 설문조사의 신뢰성과 타당성을 실질적으로 결정짓는 핵심 단계라 할 수 있다.

1.1 데이터 코딩

설문 조사에서 코딩은 응답 데이터를 정형화하여 분석 가능한 형태로 전환하는 과정으로, 전체 데이터 품질과 해석의 정확성을 좌우하는 핵심 단계다.

  • 예비 분석: 수집된 응답을 검토하여 공통 패턴을 파악한다. 응답 내용을 기반으로 주요 범주를 설정한다.
  • 코드북 개발: 응답을 분류할 코드 체계를 설계한다. 예를 들어, 산림 활용 관련 개방형 질문이 있다면, 1 = 목재 생산, 2 = 레크리에이션(산림욕, 캠핑 등), 3 = 환경 보호, 4 = 연구 및 교육, 5 = 기타
  • 응답 매핑: 개별 응답을 코드북에 따라 적절한 코드로 변환한다. 응답이 여러 개의 범주에 해당할 경우, 우선순위 규칙을 적용하거나 다중 코드를 허용할 수 있다.
  • 신뢰성 검토: 여러 명의 분석자가 같은 응답을 동일한 코드로 부여하는지 확인한다. 코딩 일관성 검증을 위해 상호 신뢰도 테스트를 수행한다.

1.1.1 코딩의 본질

코딩은 단순히 텍스트를 숫자로 바꾸는 기계적 과정이 아니라, 조사 응답 내용을 분석이 가능한 형태로 요약하고 구조화하는 핵심 작업이다.

효과적인 코딩 시스템의 필수 원칙
원칙 내용
고유성 모든 코드는 통계 분석에서 고유하게 식별될 수 있도록 독립된 숫자 값으로 설정
라벨링 각 코드에는 응답 내용을 명확하게 설명해주는 텍스트 라벨 제공
포괄성 코딩 구조는 포괄적이어야 하며, 어떤 답변도 최소한 하나의 코드에 포함
상호 배타성 각 코드는 서로 겹치지 않도록 구성, 동일한 응답이 중복 분류되지 않아야 함
실용성 코드 범주는 분석 목적과 샘플 크기에 맞추어 실용적인 수준으로 유지

코드 구조의 지속적인 검토와 개선

코딩 구조는 한 번 설정하고 끝나는 것이 아니라, 응답 자료의 다양성과 변화하는 조사 환경에 맞춰 지속적으로 검토하고 개선해야 한다. 예를 들어, 기존의 산림 이용 목적을 ‘목재 생산’, ‘관광’, ‘사유림 보존’ 등으로 분류하던 코드 체계는 ’탄소중립을 위한 산림 보전’과 같은 새로운 응답 내용을 충분히 설명하지 못할 수 있다.

모든 응답을 포괄할 수 있는 코딩 체계를 설계하는 것은 데이터의 완전성과 분석의 정확성을 확보하는 데 필수적이다. 특수 응답(무응답, 해당 없음, 거부)에 대한 별도 코드 체계를 마련하는 것은 데이터 누락이나 분석 왜곡을 방지하는 데 큰 역할을 한다.

특수 응답 코드 설계 기준
상황 권장 코드 처리 방식
무응답 9 (단일 자리), 99 (두 자리) “미확인”으로 표시
해당 없음 0 또는 00 분석 대상에서 제외
거부/모름 별도 코드 부여 응답률 계산에서 제외하거나 별도 변수로 활용

이러한 보조 응답 코드들을 설문지 설계 시점부터 적용하는 것은 대규모·반복 조사에서 일관성과 비교 가능성을 보장하는 데 필수적이다.

결론 및 시사점

코딩은 단순히 응답을 숫자로 변환하는 기술적 절차를 넘어, 조사 목적에 맞는 응답 내용을 요약하고 구조화하는 해석적 과정이다. 이를 위해 코드의 수와 범주 분류 체계는 분석 목표에 부합하도록 신중하게 설계되어야 하며, 이 과정에서 상호 배타성과 포괄성이라는 원칙을 동시에 충족해야 한다. 결론적으로, 코딩 체계의 설계와 유지보수는 단순한 데이터 정리 작업이 아니라, 조사 데이터의 질을 결정짓는 핵심적인 과정으로 이해되어야 하며, 그 중요성은 설문 설계 초기 단계부터 반영되어야 한다.

1.1.2 필드 코딩

필드 코딩의 개념

필드 코딩은 설문조사 현장에서 개방형 질문의 장점과 폐쇄형 질문의 효율성을 결합한 방식으로, 조사원이 응답자의 자유로운 진술을 들은 직후, 해당 응답을 사전에 정의된 코드 범주 중 하나로 분류하는 실시간 코딩 기법이다.

필드 코딩의 절차

  • 응답자에게 개방형 질문을 제시 → 자유롭게 서술형 응답을 하도록 유도한다.
  • 조사원이 즉시 응답을 해석 → 해당 응답이 포함될 수 있는 코드 범주를 검토한다.
  • 사전 정의된 코드 리스트와 비교하여 적절한 코드 선택 → 가장 적합한 카테고리에 배정한다.
  • 코딩을 완료하고 데이터 저장 → 이후 데이터 분석에서 활용 가능하도록 정리한다.

필드 코딩 장단점

필드 코딩 장단점
구분 항목 설명
장점 즉각적인 코딩 가능 응답을 수집하면서 동시에 코딩을 수행하여 사후 코딩 과정이 불필요
장점 질문에 대한 깊이 있는 탐색 가능 인터뷰어가 응답 내용을 추가로 탐색하여 보다 정확한 분류 가능
장점 응답자의 자유도 보장 완전한 폐쇄형 질문과 달리, 응답자의 입장에서 보다 자연스러운 답변 제공 가능
단점 인터뷰어의 해석에 따른 오류 발생 가능 같은 응답이라도 조사자마다 코드 부여 방식이 다를 수 있음
단점 실시간 처리의 부담 조사원이 실시간으로 응답을 분석하고 코드화해야 하므로 부담이 클 수 있음
단점 복잡한 코드 체계의 경우 어려움 코드의 수가 많거나 복잡하면 인터뷰어가 즉시 적절한 범주를 선택하기 어려울 수 있음

필드 코딩과 사후 코딩 비교

필드 코딩 vs. 오피스 코딩 비교
구분 필드 코딩 오피스 코딩
코딩 시점 실시간 코딩 (인터뷰 진행 중) 조사 후 코딩 (설문 응답을 저장한 후)
책임자 조사원이 직접 코드화 전문 코더가 응답을 해석하여 코드화
장점 즉각적인 데이터 정리 가능, 추가 탐색 가능 보다 체계적이고 일관성 있는 코딩 가능
단점 인터뷰어의 주관 개입 가능, 실시간 처리 부담 시간이 많이 소요됨, 사후 코드 검토 필요

1.1.3 코딩 품질 지표

코딩 과정에서 발생할 수 있는 개념적 오류나 실행의 비일관성은 설문조사 데이터의 신뢰성과 타당성에 중대한 영향을 미친다.

코더 변량 coder variance

코더 변량의 위험성

코더 변량(coder variance)은 동일한 응답에 대해 서로 다른 코더들이 다르게 코딩함으로써 발생하는 데이터의 변동성이다.

  • 영국 연구 사례: 코더 간 ICC 평균값 = 0.001 → 코더 간 일치도가 매우 낮음
  • 설계효과 공식: \(Deff = 1 + \rho_{c}(m - 1)(1 - r)\)
    • \(\rho_{c}\): 코더의 내집단 상관계수, \(m\): 개별 코더가 코딩한 평균 사례 수, \(r\): 특정 코드의 신뢰도

대응 전략: 명확한 코딩 지침서 제공, 사전 훈련, 이중 코딩(double coding) 검증 절차 도입

코딩 구조의 취약점

코딩 구조가 취약하게 설계될 경우, 의미적으로 서로 다른 응답이 동일한 코드 범주에 포함되어 분석 결과에 왜곡을 초래할 수 있다. 예를 들어, 학력을 기준으로 소득을 분석할 때 “고등학교 졸업”이라는 항목에 정규 고등학교 졸업자와 검정고시 합격자가 동일하게 포함되면, 두 집단 간 경험과 사회적 배경의 차이를 간과하게 된다. 따라서 코딩 구조는 분석 목적과 변수의 의미를 충분히 반영하도록 정교하게 설계되어야 하며, 애매하거나 복합적인 응답에 대해 세분화된 코드 범주를 마련하는 것이 체계적인 오류를 줄이는 핵심이다.

코더 변량이 조사 결과에 미치는 영향

코더 변량이 조사 결과에 미치는 영향은 작지만 무시할 수 없는 수준이다. 비록 동일한 코드 구조를 사용하더라도, 코더는 개인의 판단과 해석 방식에 따라 동일한 응답을 다르게 분류할 수 있다. 이는 표준 오차의 증가로 이어져 결과 해석 시 통계적 불확실성을 높이는 요인이 된다. 따라서 코딩 매뉴얼의 명확화, 반복 교육, 이중 코딩(double coding)을 통한 검증 과정이 중요하다.

1.2 수치 데이터를 파일에 입력하기

데이터 입력의 개념

데이터 입력, 또는 데이터 캡처는 설문조사 과정에서 수집된 정보를 전자적 형태로 전환하는 단계로, 분석을 위한 기초 작업 중 하나이다.

데이터 입력 방식 비교
방식 특징 대표 예시
CAPI/CAWI 응답과 동시에 자동 저장 → 별도 입력 불필요 컴퓨터 지원 면접조사
전화 응답 시스템 터치톤·음성 인식으로 자동 기록 자동화 전화 조사
종이 설문지 수기 입력 필요, OCR·마크 인식 기술 활용 가능 전통적 종이 조사

결국, 데이터 입력 방식의 선택은 조사 방식, 예산, 시간, 데이터 정확성 요구 수준 등에 따라 결정된다.

인간 데이터 입력 방식의 한계

인간이 직접 수행하는 데이터 입력 방식은 여러 가지 한계를 가지고 있다. 가장 큰 문제는 높은 인건비와 시간 소요이다. 100% 재입력(Double Data Entry) 또는 2인 검증 등의 절차가 수행되지만, 사람의 실수로 인한 오류 가능성은 완전히 제거되지 않는다. 이러한 한계를 극복하고자 최근에는 컴퓨터 지원 데이터 수집(CAPI, CAWI 등) 방식이 선호되고 있다.

1.3 데이터 편집 editing

데이터 편집의 개념

데이터 편집은 설문조사에서 수집된 응답 자료가 통계 분석에 적합하도록 정제하는 초기 단계로, 데이터의 정확성과 논리적 일관성을 확보하는 데 필수적인 과정이다.

데이터 편집 주요 유형

데이터 편집의 주요 유형
편집 유형 설명 예시
범위 편집 데이터 값이 허용된 범위 내에 있는지 확인 연령 값이 1개월 이상, 120년 이하인지 검사
비율 편집 특정 값 간 비율이 논리적으로 맞는지 확인 농장에서 생산된 우유 갤런 수와 젖소의 수 비율이 적절한지 확인
이력 데이터 비교 이전 조사 데이터와 비교하여 일관성을 점검 1차 조사와 2차 조사에서 가구원 수가 유사한지 확인
균형 편집 여러 변수의 합이 일정해야 하는 경우 확인 집·직장·기타 장소에서 보낸 시간의 합이 100%인지 검사
최대·최소 값 확인 비정상적으로 크거나 작은 값이 존재하는지 검사 극단적인 소득 값이 존재하는지 확인
일관성 편집 논리적 관계가 성립하는지 점검 12세 미만 응답자의 혼인 상태는 ’미혼’이어야 함

CAPI와 편집

CAPI 오류 점검 방식: Hard vs. Soft Edit
유형 동작 방식 적용 상황
강제 체크 (Hard Edit) 명백한 오류 시 설문 진행이 중단, 반드시 수정 논리적으로 절대 불가능한 값 (예: 나이 5세 + 직업 회사원)
소프트 체크 (Soft Edit) 비정상적으로 보이나 허용 가능한 경우 경고만 제공 이론적으로 가능하지만 드문 경우

시스템이 항상 응답자의 실제 상황을 완벽하게 반영하는 것은 아니므로, 실시간 편집 기능은 설문 설계자의 전문적 판단과 병행되어야 한다.

데이터 편집 발전

데이터 편집의 방식은 전통적인 수작업 중심에서 점점 더 규칙 기반(rule-based) 및 컴퓨터 지원 방식으로 진화하고 있다. 최신 편집 시스템은 점차 전문가 지식과 인공지능(AI) 기반 알고리즘을 활용하는 방향으로 발전하고 있다.

2 가중치 산정

가중치 조정의 단계별 유형
유형 목적
기본 가중치 층화·군집 설계에 따른 추출 확률의 역수 적용
차등 선택 확률 가중치 과대·과소표집 집단의 모집단 비율 보정
단위 무응답 조정 가중치 성별·연령 등 집단별 응답률 차이 보정
사후 층화 가중치 외부 모집단 분포(인구총조사 등)와 최종 정합

조사 표본에서 가중치는 통계적 추정의 정확성을 높이고, 모집단을 보다 대표할 수 있도록 설계상의 왜곡과 응답 편향을 보정하는 데 사용된다.

가중치가 필요한 핵심 이유
  • 특정 연령대나 지역 집단이 과도하게 추출된 경우 보정 필요
  • 응답률이 낮은 집단이 있을 경우 실제 비중 반영을 위해 가중치 조정 필요
  • 가중치는 개별 응답자의 수치를 모집단 전체에 합리적으로 확장하는 ‘확장 계수(expansion factor)’ 역할을 수행

가중치는 단일 방식으로 계산되지 않으며, 조사 설계의 복잡도와 조사 목적에 따라 다양한 조정 절차가 적용된다. 이렇게 다단계로 조정된 최종 가중치는 분석 단계에서 반드시 반영되어야 하며, 그렇지 않으면 모집단을 왜곡하는 결과를 초래할 수 있다.

2.1 단계 비율 조정 가중치

다단계 표본 설계에서는 모집단 전체를 한 번에 추출하지 않고, 여러 단계를 거쳐 표본을 선택한다. 이때 각 단위의 선택 확률이 서로 다르게 되므로, 이를 보정하기 위한 가중치가 필요하다. 이 가중치는 보통 “확률의 역수”로 정의되며, 어떤 단위가 선택될 확률이 작을수록 더 큰 가중치를 갖는다.

1단계 비율 조정 가중치 개념

1단계 비율 조정 가중치는 다단계 표본 설계에서 균등 확률 표본(EPSM: Equal Probability Sample)을 실현하기 위해 사용되는 보정 방식이다.

\[\text{Estimated Stratum Population Total} = \frac{\text{Population Total in Selected PSU}}{\text{Probability of Selecting PSU}}\]

실질적인 가중치 적용

1단계에서 선택된 PSU에 포함된 모든 조사 대상자에게 동일한 1단계 비율 조정 가중치(\(W_{i1}\))가 부여된다. 이 \(W_{i1}\)이 기초 가중치로서 출발점이 된다.

2.2 차등 선택 확률 가중치

차등 배분 예시: 성폭력 피해 조사

모집단: 남성 600명(60%), 여성 400명(40%) / 전체 표본: 200명

차등 배분 (여성 과대표집): 남성 100명, 여성 100명 선정 시

성별 모집단 표본 표본 비율 가중치
남성 600명 100명 1/6 6
여성 400명 100명 1/4 4

가중 피해율 계산: \[\text{추정 피해율} = \frac{(10\% \times 600) + (30\% \times 400)}{600 + 400} = 18\%\]

단순 표본 평균(20%)이 아닌, 모집단 구조를 반영한 가중 추정값 = 18%

이처럼 차등 배분은 분석의 정확도를 높이는 동시에, 대표성 유지를 위해 가중치 조정이 필수적이라는 점을 잘 보여준다.

비례 배분(EPSEM, Equal Probability Selection Method)

표본이 모집단의 주요 특성 분포를 그대로 반영하도록 설계된 추출 방식이다. 이러한 방식에서는 모든 단위가 동일한 선택 확률을 가지므로, 분석 과정에서 추가적인 가중치를 적용할 필요가 없다.

차등 배분(Disproportionate Allocation)

차등 배분(disproportionate allocation)은 표본 추출 시 특정 집단의 표본 수를 인위적으로 조정하는 방식으로, 특히 드문 특성을 조사할 때 통계적 정밀도를 확보하기 위해 사용된다.

차등 배분을 실시할 경우, 각 응답자의 응답은 그가 속한 집단의 모집단 대비 표본 비율의 역수만큼 가중치를 부여받는다.

가중치 조정이 필요한 이유

차등 배분을 활용한 조사에서는 특정 집단의 표본 수를 인위적으로 늘려 분석의 정밀도를 확보할 수 있지만, 그만큼 가중치 조정이 반드시 필요하다.

차등 배분에서 가중치 조정의 두 가지 목적
  • 분석 정밀도 확보: 특정 집단 응답자 수를 늘려 피해율의 신뢰도를 높임
  • 대표성 회복: 가중치를 적용하여 실제 인구 구조를 반영한 추정치를 산출

→ 가중치 조정은 조사 결과의 타당성과 일반화 가능성을 동시에 확보하기 위한 필수적인 절차

2.3 단위 무응답 조정을 위한 가중치

2.3.1 무응답의 문제와 표본 구성

성폭력 피해 조사는 주제의 민감성으로 인해 응답률이 낮을 수 있으며, 특히 성별에 따라 응답률이 상이하게 나타나는 경향이 있다. 위의 예시에서와 같이 모집단은 남성 600명(60%), 여성 400명(40%)으로 구성되어 있고, 이 구조를 반영한 비례 배분으로 표본 200명을 선정하여 남성 120명, 여성 80명이 포함되었다고 가정하자.

그러나 실제 조사에 응답한 인원은 성별 응답률에 따라 다음과 같이 달라진다.

  • 남성 응답률: 90% → 120명 중 108명 응답
  • 여성 응답률: 75% → 80명 중 60명 응답

결과적으로 여성은 원래 모집단에서 40%를 차지했음에도 불구하고, 실제 응답자 중에서는 약 35.7%로 과소 대표되는 문제가 발생한다.

2.3.2 무응답 조정 가중치 계산

무응답 조정 가중치 계산 및 결과

각 집단의 응답률의 역수를 사용하여 가중치를 설정한다.

\[W_{male} = \frac{1}{\text{응답률}_{male}} = \frac{1}{0.9} = 1.11, \quad W_{female} = \frac{1}{\text{응답률}_{female}} = \frac{1}{0.75} = 1.33\]

가중 피해율 계산:

\[\text{추정 피해율} = \frac{(10\% \times 119.88) + (30\% \times 79.8)}{199.68} \approx 17.99\%\]

→ 단순 응답자 피해율 평균(20%)보다 낮은 수치로, 모집단 성비와 응답률 차이를 반영해 보다 현실적인 피해율을 제시한다.

2.4 사후 가중치

2.4.1 사후 층화 가중치 개념

사후 층화 가중치(post-stratification weight)는 조사 과정에서 마지막으로 수행되는 가중치 조정 절차로, 조사 표본이 실제 모집단 분포와 최대한 일치하도록 조정하는 데 목적이 있다.

  • 사후 층화는 모집단 외부 정보를 기준으로 최종적으로 가중치를 조정하는 방식이다.
  • 기존 가중치 적용만으로는 실제 모집단 분포와 완전히 일치하지 않을 수 있으며, 그 차이를 보정하기 위해 필수적이다.
  • 대표성을 더욱 높이고자 하는 실증연구나 공공통계 생산에서 정확하고 현실적인 추정값을 제공하는 데 중요한 역할을 한다.

2.4.2 사후 층화 가중치 적용 방법

모집단이 여성 52%, 남성 48%인데 표본의 가중치 분포가 50:50이라면, 다음과 같이 조정한다.

  • 남성 가중치 감소: \(\frac{0.48}{0.50} = 0.96\) (4% 감소)
  • 여성 가중치 증가: \(\frac{0.52}{0.50} = 1.04\) (4% 증가)

가중 평균을 통한 성폭력 피해율 추정

남성과 여성의 피해율이 각각 10%, 30%일 경우, 사후 층화 가중치를 반영한 최종 성폭력 피해율은 다음과 같이 계산된다.

\[\text{추정 피해율} = \frac{(10\% \times 576.0) + (30\% \times 416.0)}{576.0 + 416.0} = 18.39\%\]

3 결측치 대체

조사에서 항목 무응답(item nonresponse)은 응답자가 전체 설문에는 참여했지만 특정 문항에는 답변하지 않는 현상을 의미한다. 이처럼 항목 무응답이 누적되면 해당 변수에 대한 분석이 어려워지고, 전체 조사 결과의 신뢰도와 대표성에도 영향을 미칠 수 있다.

결측값 대체 방법 선택 기준
상황 권장 방법
결측이 적고 무작위 발생(MCAR) 완전 사례 분석 또는 평균 대체
변동성 유지가 중요 확률적 대체
변수 간 관계 활용 가능 회귀 대체
동일 조사 내 유사 응답자 존재 핫덱 대체
불확실성을 반영해야 할 때 다중 대체 (MI) ← 가장 권장

결측값 대체는 단순히 빈칸을 임의의 값으로 채우는 것이 아니라, 응답자의 특성이나 다른 문항과의 관계를 고려하여 가장 적절한 값을 통계적으로 추정하는 과정이다.

3.1 결측값을 처리하는 방법

결측값을 무시하는 방법

결측값을 무시하는 방법은 조사 데이터에서 특정 항목에 응답하지 않은 사례를 통째로 제외하고 나머지 완전한 응답만을 가지고 분석을 수행하는 방식이다. 이는 완전 사례 분석(complete case analysis) 혹은 사례 삭제(casewise deletion)라고 불린다.

장점은 분석이 매우 단순하고 직관적이라는 데 있다. 하지만 결측이 무작위로 발생하지 않을 경우, 특정 응답자 집단에서 결측이 집중된다면 표본의 대표성이 왜곡될 수 있다. 따라서 무작위 결측(missing completely at random, MCAR) 조건이 충족되지 않을 경우에는 대체 방법의 도입이 바람직하다.

결측값을 보완하는 방법

결측값을 보완하는 방법은 분석 대상 데이터에서 누락된 값을 합리적인 방식으로 예측하거나 추정하여 채우는 절차를 말하며, 이를 일반적으로 결측값 대체(imputation)라고 한다.

3.1.1 결측값 대체 방법 비교

결측값 대체 방법 장단점 비교
대체 방법 장점 단점
완전 사례 분석 단순·직관적, 추가 가정 없이 분석 가능 데이터 손실 발생, 모집단 대표성 감소 위험
평균 대체 계산이 간단하고 빠르며 데이터 손실 없음 분산 감소로 데이터 변동성이 왜곡될 가능성
확률적 대체 변동성을 유지하여 데이터 왜곡을 방지 무작위성 도입으로 결과 변동성 증가 가능
회귀 대체 다른 변수와의 관계를 고려하여 현실적인 값 대체 모델이 잘못 설정되면 왜곡된 값이 대체될 위험
핫덱 대체 실제 응답자 데이터로 자연스러운 대체 가능 유사 기준 설정이 중요, 표본 크기 작으면 부적절
다중 대체 불확실성을 반영하여 신뢰성 높은 결과 제공 계산량이 많고 통계적 해석이 다소 복잡

3.2 대체방법

3.2.1 평균 대체 mean imputation

평균 대체(mean imputation)는 결측값을 처리하는 가장 단순한 방식 중 하나로, 누락된 값을 해당 변수의 평균값으로 채워 넣는 방법이다. 이 방식은 계산이 간단하고, 결측값이 있다고 해서 해당 응답을 분석에서 제외하지 않아도 되므로 표본 수를 유지할 수 있다는 장점이 있다.

하지만 평균 대체는 모든 결측값이 동일한 평균값으로 채워지기 때문에, 원래 데이터가 가지고 있던 자연스러운 변동성이 줄어들게 된다. 따라서 평균 대체는 응답률이 높고 결측이 무작위로 발생한 경우에만 제한적으로 사용하는 것이 바람직하다.

3.2.2 확률적 대체 stochastic imputation

확률적 대체(stochastic imputation)는 평균 대체가 가지는 변동성 손실 문제를 보완하기 위해 고안된 방식으로, 평균값을 중심으로 하되 무작위성을 부여하여 보다 현실적인 데이터를 생성한다. 예를 들어 월소득 평균 500만원, 표준편차 100만원인 상황에서 결측이 발생했다면, \(N(500, 100^2)\)에서 임의의 값을 추출하여 대체한다.

다만 이 방법은 무작위 요소를 포함하기 때문에, 대체할 때마다 결과가 달라질 수 있다는 점에서 분석의 재현성과 일관성에 주의가 필요하다.

3.2.3 회귀 대체 regression imputation

회귀 대체(Regression Imputation)는 결측값을 보완하는 보다 정교한 방법으로, 해당 변수와 관련 있는 다른 변수들을 활용하여 결측값을 예측하는 방식이다.

\[y_{i(r)} = \alpha + \beta_{1}\text{Age}_{i(r)} + \beta_{2}\text{Edu}_{i(r)} + \beta_{3}\text{Job}_{i(r)} + e_{i(r)}\]

이 방법의 장점은, 단순 대체보다 훨씬 더 응답자 개인의 특성을 반영한 맞춤형 대체가 가능하다는 점이다. 하지만 회귀모형이 잘못 설정되면 편향된 추정치가 생성될 수 있으며, 대체된 값들이 과도한 일관성을 유발하여 분산 추정에 오류를 가져올 수 있다.

3.2.4 핫덱 대체 Hot-Deck imputation

핫덱 대체(Hot-Deck Imputation)는 결측값을 비슷한 특성을 가진 응답자의 실제 데이터로 대체하는 방법이다.

핫덱 대체 과정: ① 데이터 정렬 및 유사 집단 형성 → ② 결측값이 있는 응답자 식별 → ③ 동일 그룹 내 결측 없는 응답자의 데이터를 참조 → ④ 결측값 대체 수행

콜드덱 Cold-Deck은 과거의 다른 데이터셋이나 외부 자료에서 값을 가져와 결측값을 대체하는 방식이다. 반복되는 조사에서 일관성을 유지하는 데 유리하나, 현재 상황과 불일치할 가능성이 있다.

3.2.5 다중 대체 multiple imputation

다중 대체(MI)가 가장 권장되는 이유

단일 대체 방법은 결측값에 하나의 고정된 값을 할당하기 때문에 결측에 내재된 불확실성을 완전히 무시한다. 다중 대체는 여러 개의 대체값을 생성하여 각각의 데이터셋을 분석한 후 결과를 통합함으로써 결측으로 인한 통계적 불확실성을 분석 결과에 반영한다.

적용 시점: 결측 메커니즘이 MAR(Missing At Random)이고 결측률이 높을 때 특히 효과적

구현 소프트웨어: R (mice 패키지), Python (fancyimpute, statsmodels), SAS, Stata

다중 대체(Multiple Imputation)는 하나의 결측값에 대해 3~5개의 서로 다른 대체값을 생성하여 각각의 데이터셋을 구성하고 독립적으로 분석한 후, 이들의 결과를 종합하는 방법이다.

반면, 다중 대체는 계산량이 많고 구현이 복잡하다는 단점이 있다. 그럼에도 불구하고 최근에는 통계 소프트웨어에서 다중 대체 기능을 쉽게 사용할 수 있게 되어, 복잡한 조사나 사회과학 데이터 분석에서 점점 널리 활용되고 있다.

4 복합표본 분산 추정

복합표본 분산 추정 방법 비교
방법 특징 적용 상황
테일러 급수 근사법 비선형 통계량을 1차 선형화하여 분산 추정 비율·평균 등 복잡한 통계량
균형 반복 복제법 (BRR) 표본을 반복 분할하여 분산 추정 2 PSU 층화 설계
잭나이프 반복 복제법 (JRR) 각 PSU를 제외한 반복 추정으로 분산 산출 다양한 복합설계

조사 데이터는 실제 수집 과정에서 층화(stratification), 군집(clustering), 다단계 추출(multi-stage sampling), 가중치(weighting), 결측값 대체(imputation) 등의 다양한 절차가 적용되기 때문에 복잡한 구조를 지닌다. 이로 인해 실제 분산은 단순 확률 표본보다 작거나 클 수 있으며, 만약 이를 무시하고 일반적인 분산 추정 방식을 사용하면 표준 오차가 부정확하게 추정될 위험이 있다.

복합표본 설계를 무시하면?

동일한 지역에서 다수의 가구를 선택하는 클러스터 표본의 경우, 해당 지역 내 응답자들은 비슷한 사회경제적 특성을 가질 가능성이 높아 서로 상관관계가 형성된다. 이를 무시하고 일반 분산 추정 방식을 사용하면: - 표준오차가 과소 추정 → 신뢰구간이 실제보다 좁게 나타남 - 유의성 검정이 왜곡 → 실제로 유의하지 않은 결과가 유의한 것처럼 보일 수 있음

→ 반드시 설계 정보를 반영한 분산 추정 방법을 사용해야 한다.

4.1 테일러 급수 근사법(Taylor Series Approximation)

테일러 급수 근사법(Taylor Series Linearization)은 비선형 통계량—예를 들어 비율, 평균 대비 비율, 오즈비(odds ratio)와 같은 복잡한 함수형 통계량—의 분산을 추정할 때 널리 사용되는 대표적인 방법이다.

테일러 급수 근사를 이용한 가중 평균의 분산

\[\overline{Y}_w = \frac{\sum_{i=1}^{n}w_{i}y_{i}}{\sum_{i=1}^{n}w_{i}}\]

\[\text{Var}(\overline{Y}_w) = \frac{1}{(\sum w_{i})^{2}}\left\lbrack Var(\sum w_{i}y_{i}) + {\overline{Y}}_{w}^{2}Var(\sum w_{i}) - 2{\overline{Y}}_{w}Cov(\sum w_{i}y_{i},\sum w_{i}) \right\rbrack\]

테일러 급수 근사법은 현재 복합 표본 설계 데이터를 분석할 때 가장 널리 사용되는 분산 추정 방법 중 하나다. 여러 통계 소프트웨어(SAS, Stata, SUDAAN)에서 기본 옵션으로 제공되며, 비율, 평균, 회귀 계수와 같은 다양한 통계량에 적용 가능하다.

4.2 균형 반복 복제법(Balanced Repeated Replication, BRR)

균형 반복 복제법(BRR)은 전체 표본을 여러 개의 하위 표본(Replicates)으로 나누어, 각 하위 표본에 대해 통계량을 계산한 뒤 이들의 변동성을 이용해 모집단 통계량의 분산을 추정한다.

\[\overline{Y} = \frac{1}{c}\overset{c}{\sum_{r = 1}}{\overline{Y}}_{r}, \quad Var(\overline{Y}) = \frac{1}{c(c - 1)}\overset{c}{\sum_{r = 1}}({\overline{Y}}_{r} - \overline{Y})^{2}\]

BRR의 가장 큰 장점은 복잡한 조사 설계의 구조를 반영하면서도 실제 표본의 변동성을 잘 반영할 수 있다는 점이다. 그러나 BRR을 적용하려면 각 층(stratum)마다 두 개의 1차 표본 단위(PSU)가 존재해야 한다.

4.3 잭나이프 반복 복제법(Jackknife Repeated Replication, JRR)

잭나이프 반복 복제법(JRR)은 데이터에서 하나의 표본 또는 클러스터를 순차적으로 제거하면서 반복적으로 통계량을 계산하는 방식이다. 잭나이프 방법은 계산이 비교적 단순하다는 장점을 가지며, 특히 비선형 통계량의 분산 추정에도 안정적인 결과를 제공할 수 있다.

4.4 방법 비교

테일러 급수 근사법은 가장 널리 사용되는 방식으로 일반적인 기본값으로 활용되고, BRR은 층화 구조가 명확할 때, 잭나이프는 구조가 단순하거나 반복 제거 방식이 적합할 때 선택적으로 사용된다.

5 조사 데이터 문서화 및 메타 데이터

조사 데이터는 단 한 번의 분석을 위해 수집되는 것이 아니다. 데이터 수집 이후에도 다양한 연구자가 수년에 걸쳐 반복적으로 재분석하고, 새로운 분석 목적에 맞추어 지속적으로 활용된다.

메타데이터 vs. 파라데이터 핵심 구분
구분 메타데이터 파라데이터
정의 데이터에 대한 데이터 (기술적 정보) 조사 과정 중 자동 생성되는 부차적 정보
주요 내용 변수명, 질문 문항, 응답 코드 등 응답 시간, 응답 수정 횟수, 디바이스 종류 등
사용 목적 데이터의 해석 및 분석 지원 응답 품질 평가, 조사 설계 개선
생성 시점 설문 설계 및 자료 구축 단계 조사 수행 과정 중 자동 생성

이 두 정보는 단순한 부속 자료를 넘어, 조사 데이터의 해석과 재사용 가능성을 결정짓는 핵심 도구로 기능한다.

5.1 메타 데이터

메타데이터란 조사 데이터에 대한 정보(“데이터에 대한 데이터”)를 의미하며 연구자가 데이터를 이해하고 활용할 수 있도록 제공하는 모든 정보를 포함한다.

메타데이터의 주요 유형

메타데이터의 주요 유형
메타데이터 유형 설명
정의적 메타데이터 조사 대상 모집단, 표본 설계, 질문 문구, 코딩 용어 등을 설명
절차적 메타데이터 조사원 교육 절차, 표본 선정 방법, 데이터 수집 과정 등 조사 프로토콜을 설명
운영적 메타데이터 결측 데이터 비율, 데이터 수정 실패율, 평균 조사 시간, 조사원이 완료한 케이스 수 등 조사 품질 평가 정보 포함
시스템 메타데이터 데이터 파일 형식, 파일 위치, 데이터 검색 및 호출 방법, 변수 정의 등을 설명

메타데이터 예시

메타데이터 예시
항목 설명
변수명 AR21 (피해 보고 항목)
질문 문구 당신의 재산이 손상되었거나 파괴된 적이 있습니까?
데이터 위치 컬럼 140, 너비 1
결측값 처리 -9 (무응답), -0 (모름)
데이터 수준 가구 데이터 또는 개인 데이터
추가 메타데이터 표시(X)하여 해당하는 모든 항목을 선택하세요.

메타데이터 설계의 중요성

메타데이터는 단순한 부가 정보가 아니라, 조사 데이터를 보다 효과적으로 활용할 수 있도록 지원하는 핵심 요소이다. 조사 설계 단계에서부터 메타데이터의 체계적인 구성을 고려하는 것이 중요하며, 이를 통해 조사 품질을 높이고 연구자들이 보다 쉽게 데이터를 활용할 수 있도록 해야 한다.

5.2 파라 데이터

파라데이터(paradata)는 설문 응답이라는 결과물이 생성되는 과정을 실시간으로 추적하고 기록한 행태적(behavioral) 및 기술적(technical) 정보의 집합이다.

파라데이터의 구체적 예

웹 기반 자기기입식 설문(CAWI)에서 수집되는 대표적 파라데이터:

  • 각 문항에 소요된 응답 시간
  • 응답자가 뒤로 가기(back) 버튼을 눌러 응답을 수정한 횟수
  • 문항 미응답 또는 건너뛰기 횟수
  • 키보드 입력의 정정 횟수 (backspace, delete 키 입력 빈도)
  • 디바이스 정보(PC, 모바일, 태블릿 등)

면접조사(CAPI, CATI 등)에서 수집되는 대표적 파라데이터:

  • 면접자가 질문을 읽는 데 걸린 시간
  • 응답자가 주저하거나 이해하지 못하는 구간의 음성/행동 코딩
  • 면접 시작 및 종료 시각, 소요 시간

파라데이터의 활용 목적

파라데이터가 실현하는 4가지 활용
목적 핵심 활용 방법
응답 품질 진단 지나치게 짧은 응답 시간·동일 패턴 반복 → 무성의한 응답자 식별
설문 설계 개선 반복적으로 건너뛰거나 수정 빈도가 높은 문항 → 설계 문제 파악
면접자 모니터링 면접자의 응답 시간 패턴·질문 생략 여부 → 일관성·품질 평가
데이터 후처리 응답 완결성·무응답 패턴 기준으로 분석 범위 결정 또는 가중치 부여

파라데이터는 단순히 “보조적 로그 정보”를 넘어, 응답자가 설문에 어떻게 접근했는지, 설문 시스템이 어떻게 작동했는지를 입증하는 정량적 기록이다. 특히 빅데이터 분석, 응답자 분류, AI 기반 설문 인터페이스 개발 등에서도 파라데이터의 활용 범위는 계속 확장되고 있다.

5.3 메타데이터 vs 파라데이터 비교

구분 메타데이터 (Metadata) 파라데이터 (Paradata)
정의 조사 데이터에 대한 기술적 정보 (데이터에 대한 데이터) 조사 과정 중 생성되는 부차적 정보 (조사 절차의 부산물)
주요 내용 변수명, 질문 문항, 응답 코드, 데이터 유형 등 응답 시간, 응답 순서, 설문 경로, 중단 여부, 장치 종류 등
사용 목적 데이터의 해석 및 분석 지원, 일관성 유지 응답 품질 평가, 비표본오차 분석, 조사 설계 개선
생성 시점 설문 설계 및 자료 구축 단계에서 생성 조사 수행(수집) 과정 중 자동적으로 생성
관리 주체 조사 설계자, 데이터 관리자 조사 시스템, 조사 소프트웨어, 응답 로그 등 자동 기록 시스템
활용 예시 분석 시 변수 라벨 확인, 코드북 제작, 설문 설계 문서 활용 응답 시간 분석을 통한 신뢰도 판단, 반복 응답 여부 확인
형식 예시 Q1 = 성별 (1: 남자, 2: 여자), Q2 = 연령 (숫자형) Q1 응답 시간: 15초, 설문 중 3번 중단, 모바일 응답

【참고】 메타데이터는 주로 분석 전 준비 정보, 파라데이터는 분석 및 품질평가 보조 정보로 구분된다.