강의노트 소개
본 강의노트는 기초통계부터 회귀분석, 다변량분석까지 총 21개 노트로 구성된 체계적인 통계학 학습 자료이다.
데이터를 이해하고 탐색하는 기초 단계부터, 변수 간 관계를 모델링하는 회귀분석, 그리고 고차원 복합 데이터를 다루는 다변량 기법까지 단계적으로 학습한다. 파이썬(Python) 코드와 실제 데이터를 활용한 풍부한 사례분석을 통해 이론과 실습을 동시에 습득할 수 있도록 구성하였다.
| 통계학·데이터분석 입문자 |
기초통계 → 회귀분석 순서로 체계적 학습 |
| 사회과학·경영학 연구자 |
논문통계·실증분석을 위한 방법론 습득 |
| 머신러닝·AI 입문자 |
전통 통계 기반을 닦은 후 ML로 확장 |
| 공공·산업 데이터 분석가 |
다변량분석으로 복합 데이터 구조 파악 |
기초통계
데이터를 읽고 이해하는 힘 — 통계학적 사고의 출발점
| 📄 통계학의 개념 |
기술통계·추론통계, 모집단·표본, 통계적 사고 |
| 📄 데이터와 통계 |
데이터 유형·척도 수준·수집 방법·전처리 기초 |
| 📄 일변량 분석 |
평균·분산·왜도·첨도, 히스토그램·박스플롯 |
| 📄 교차표 분석 |
범주형 자료, 카이제곱 검정, 연관성 분석 |
| 📄 적합성 검정 |
카이제곱 적합성 검정, 기대빈도, 모형 적합성 |
| 📄 정규성 검정 |
Shapiro-Wilk·KS 검정, Q-Q Plot 해석 |
| 📄 상관분석 |
Pearson·Spearman 상관계수, 상관 vs 인과 |
| 📄 분산분석(ANOVA) |
집단 평균 비교, 일원·이원분산분석, 사후검정 |
| 📄 시계열 분석 |
추세·계절성·자기상관, ARIMA 기초 |
회귀분석
변수 간 관계를 모델링하고 예측하는 방법론
| 📄 개념·추정 |
단순·다중회귀, OLS 추정, 결정계수 R² |
| 📄 변수선택 |
Forward·Backward·Stepwise, AIC/BIC 기준 |
| 📄 다중공선성 |
VIF, 조건수, 공선성 진단 및 해결 방법 |
| 📄 회귀진단 |
잔차분석, 이상치·영향점 탐지, 등분산성 |
| 📄 로지스틱회귀 = 예측분류 |
로짓함수, 오즈비, 혼동행렬, ROC 곡선 |
다변량분석
여러 변수를 동시에 분석하여 숨겨진 구조를 발견한다
| 📄 다변량분석 개요 |
인과·상관·유사성 분류, 확률분포, 고유값 |
| 📄 PCA 주성분분석 |
차원축소, 분산 최대화, 주성분 해석, MLB 사례 |
| 📄 FA 요인분석 |
잠재요인, EFA·CFA, 신뢰도, 항공 서비스 사례 |
| 📄 판별분석 = 예측분류 |
LDA·QDA, 로지스틱 판별, 혼동행렬, ROC |
| 📄 군집분석 |
계층적·K-means·PAM, Dendrogram, CCC |
| 📄 다차원척도·대응분석 |
MDS Stress, Biplot, 카이제곱 거리, CA |
| 📄 정준상관·MANOVA |
CCA 정준변수, MANOVA 검정, Wilks’ Lambda |
학습 로드맵
① 기초통계 (9개)
통계학 개념 → 데이터 이해 → 단변량 분석 → 범주형 분석 → 검정 → 상관·분산분석
② 회귀분석 (5개)
단순회귀 → 다중회귀 → 변수선택 → 다중공선성 → 진단 → 로지스틱
③ 다변량분석 (7개)
개요 → PCA → 요인분석 → 판별분석 → 군집분석 → MDS/CA → 정준상관·MANOVA
추가 심화: 머신러닝·딥러닝 강의노트로 확장 학습 가능
분석 도구
| Python |
pandas, numpy, scipy |
데이터 처리·기초 통계 |
| Python |
statsmodels, sklearn |
회귀분석·다변량분석 |
| Python |
matplotlib, seaborn, plotly |
시각화 |
| Python |
factor_analyzer, prince, semopy |
요인분석·대응분석·SEM |