세상의 모든 통계 이야기
  • 기초수학·수리통계
  • 기초통계·조사방법
  • 회귀·다변량
  • MLDL개념
  • MLDL예측
  • MLDL분류
  • 카드뉴스
  • 통계상담
  1. 【다변량분석】
  • 【회귀분석】
  • 📄 개념·추정
  • 📄 변수선택
  • 📄 다중공선성
  • 📄 회귀진단
  • 📄 로지스틱회귀
  • 【다변량분석】
  • 📄 개요
  • 📄 PCA
  • 📄 요인분석
  • 📄 군집분석
  • 📄 판별분석
  • 📄 다차원척도·대응분석
  • 📄 정준상관·MANOVA

회귀분석 & 다변량분석

[회귀분석] 섹션 메인(회귀분석)

회귀분석은 설명변수와 반응변수 간의 관계를 모형화하여 예측과 해석을 수행하는 방법이다. 이 섹션에서는 선형회귀를 중심으로 추정, 변수선택, 진단, 그리고 이진 반응을 위한 로지스틱 회귀까지 다룬다.

⸻

[회귀분석] 개념·추정

회귀모형은 Y를 X의 함수로 표현하여 평균 구조(조건부 기대값)를 설명한다. 최소제곱법(OLS)을 통해 회귀계수를 추정하고, 잔차를 이용해 적합도를 평가한다. 회귀계수의 의미(다른 변수를 고정했을 때의 평균 변화)와 기본 가정도 함께 정리한다.

⸻

[회귀분석] 변수선택

변수선택은 예측 성능과 해석 가능성의 균형을 위해 필요한 단계이다. 전진선택/후진제거/단계적 선택과 같은 절차적 방법과 AIC/BIC, 교차검증(CV) 기반의 선택 기준을 비교한다. 과적합 위험과 선택 이후 추론의 주의점도 함께 다룬다.

⸻

[회귀분석] 다중공선성

설명변수들 간의 상관이 높으면 회귀계수 추정이 불안정해지고 표준오차가 커진다. VIF(분산팽창요인) 등 진단 지표로 공선성을 점검하고, 변수 제거/결합, 표준화, 주성분회귀(PCR)·릿지/라쏘 등 완화 전략을 소개한다.

⸻

[회귀분석] 회귀진단

좋은 회귀는 “적합”뿐 아니라 “가정 위반 여부”를 점검해야 한다. 잔차 플롯을 통해 선형성·등분산성·정규성(필요 시)·독립성을 확인하고, 영향점(레버리지, Cook’s distance)과 이상치를 찾아 모형의 민감도를 평가한다. 필요하면 변환, 강건회귀, 모형 재설계를 고려한다.

⸻

[회귀분석] 로지스틱회귀

반응변수가 0/1인 경우, 확률 P(Y=1|X)를 로짓(link) 함수로 모형화한다. 최대우도추정으로 계수를 추정하며, 계수는 오즈비(odds ratio)로 해석된다. 분류 성능 평가는 혼동행렬, ROC-AUC, 임계값 설정 등을 통해 수행한다.

⸻

[다변량분석] 섹션 메인(다변량분석)

다변량분석은 여러 변수의 구조를 동시에 고려하여 차원 축소, 분류, 군집, 관계 탐색을 수행한다. 이 섹션에서는 PCA, 요인분석, 군집/판별, 대응분석과 MANOVA까지 핵심 방법을 정리한다.

⸻

[다변량분석] 개요

다변량 데이터는 변수 간 상관 구조가 존재하므로, 단변량 분석만으로는 전체 패턴을 놓치기 쉽다. 공분산/상관행렬을 기반으로 구조를 요약하고, 목적(요약·분류·군집·관계 탐색)에 따라 적절한 방법을 선택한다. 표준화 여부, 거리/유사도 정의, 해석 단위를 명확히 하는 것이 중요하다.

⸻

[다변량분석] PCA

PCA(주성분분석)는 상관된 변수들을 소수의 선형결합(주성분)으로 요약하는 차원축소 방법이다. 분산을 가장 많이 설명하는 축을 순서대로 찾으며, 스코어(score)와 로딩(loading)으로 해석한다. 시각화(주성분 공간)와 정보 손실-차원 수 선택(설명분산비, Scree plot)을 함께 다룬다.

⸻

[다변량분석] 요인분석

요인분석은 관측변수 뒤에 존재하는 잠재 요인(latent factors)을 추정해 구조를 설명한다. 공통요인모형, 요인적재량, 공통성(communality)을 이해하고 요인 수 결정, 회전(Varimax 등)을 통해 해석 가능성을 높이는 절차를 다룬다. PCA와의 차이(목적·모형 가정)를 명확히 비교한다.

⸻

[다변량분석] 군집분석

군집분석은 라벨 없이 관측치들을 유사한 그룹으로 묶는 비지도 학습 방법이다. 거리(유클리드 등)와 표준화가 결과에 큰 영향을 주며, 계층적 군집(덴드로그램)과 K-means 등 대표 알고리즘을 소개한다. 군집 수 선택과 군집 결과 해석·검증(실루엣 등)도 함께 다룬다.

⸻

[다변량분석] 판별분석

판별분석은 주어진 집단 라벨을 이용해 새로운 관측치를 분류하는 지도학습 방법이다. LDA/QDA의 기본 가정(정규성, 공분산 구조)을 이해하고 판별함수의 의미를 해석한다. 오분류율, 교차검증 등으로 성능을 평가하며 로지스틱 회귀와의 비교도 다룬다.

⸻

[다변량분석] 다차원척도·대응분석

다차원척도(MDS)는 거리/비유사도 정보만으로 저차원 좌표를 찾아 구조를 시각화한다. 대응분석(CA)은 교차표 데이터를 저차원 공간에 배치하여 범주 간 연관 패턴을 해석한다. 두 방법 모두 “가까움=유사함”이라는 직관을 제공하되, 축의 의미 해석이 핵심이다.

⸻

[다변량분석] 정준상관·MANOVA

정준상관분석(CCA)은 두 변수집합 X와 Y 사이의 연관성을 가장 크게 만드는 선형결합 쌍을 찾는다. MANOVA는 여러 반응변수의 평균 벡터가 집단 간에 차이가 있는지 동시에 검정한다. 다중검정 문제를 완화하면서 종합적 차이를 평가할 수 있으나, 가정과 표본 크기 요구를 함께 점검해야 한다.