차원축소: 개념 및 필요성
1 고차원 데이터란?
1.1 고차원 데이터 개념
회귀와 분류를 위한 대부분의 전통적 통계 기법은 관측치의 개수 \(n\)이 특징(변수)의 개수 \(p\)보다 훨씬 큰 저차원 상황을 전제로 설계된 방법이다. 이는 통계학의 역사 대부분에서 통계를 사용해야 했던 과학적 문제의 상당수가 저차원 문제였기 때문이기도 하다.
관측치보다 특징이 더 많은 데이터를 고차원(high-dimensional) 데이터라 한다.
\[p \gg n \quad \text{또는} \quad p \geq n\]
지난 20년 동안 새로운 기술은 금융, 마케팅, 의학 등 다양한 분야에서 데이터 수집 방식을 바꾸었다. 이제는 거의 무제한에 가까운 수의 특징 측정치를 수집하는 일이 흔해졌다. \(p\)가 극도로 커질 수 있는 반면, 관측치 수 \(n\)은 비용·표본 확보 가능성·기타 제약 때문에 종종 제한된다.
예를 들어 한 병원이 흉부 CT 영상을 이용해 폐암 여부를 예측하는 모형을 만든다고 하자. 한 장의 영상은 수많은 픽셀로 구성되며, 각 픽셀 값을 하나의 예측변수로 취급하면 예측변수의 수 \(p\)는 수십만에서 수백만 수준이 될 수 있다. 반면 라벨이 확정된 환자 영상은 비용과 판독 인력의 제약 때문에 수백 명 정도만 확보될 수도 있다. 따라서 \(p \gg n\)인 고차원 상황이 되며, 여기서 차원이라는 말은 \(p\)의 크기를 의미한다.
특징의 수 \(p\)가 관측치 수 \(n\)보다 큰 경우를 고차원 상황으로 정의한다. 다만 \(p\)가 \(n\)보다 약간 작더라도 아래에서 논의할 고려사항들은 여전히 적용되며, 지도학습을 수행할 때 항상 염두에 두는 것이 바람직하다.
1.2 고차원에서 무엇이 잘못되는가?
\(p > n\)일 때 회귀와 분류를 위해 추가적인 주의와 특화된 기법이 필요함을 보이기 위해, 고차원 상황을 전제로 설계되지 않은 통계 기법을 적용했을 때 무엇이 잘못되는지를 살펴본다. 이를 위해 최소제곱 회귀를 살펴본다. 동일한 개념은 로지스틱 회귀, 선형판별분석, 그 밖의 고전적 통계 접근에도 적용된다.
특징의 수 \(p\)가 관측치 수 \(n\)만큼 크거나 더 크면, 최소제곱은 수행할 수 없거나 그런 방식으로 수행하는 것이 부적절하다.
- 이유: 특징과 반응 사이에 실제 관계가 있든 없든, 최소제곱은 잔차가 0이 되도록 하는 완벽 적합을 만들어내는 계수 추정치를 산출할 수 있기 때문이다.
- 결과: 훈련 데이터를 완벽히 맞출 수 있다는 사실은 좋은 모형의 증거가 아니다.
예를 들어, 하나의 설명변수와 절편을 포함한 단순 선형회귀에서 관측치가 20개인 경우와 2개뿐인 경우를 비교해 보자.
- 관측치 20개 (\(n > p\)): 최소제곱 회귀선이 모든 점을 정확히 통과할 필요가 없으며, 데이터 전체의 경향을 가장 잘 근사하는 방향으로 직선이 정해진다. 잔차가 남는 것이 정상이며, 회귀선은 개별 관측치를 “외우는” 것이 아니라 평균적 관계를 추정한다.
- 관측치 2개 (\(n = p+1\)): 두 점을 정확히 통과하는 직선이 항상 존재하고 최소제곱은 그 직선을 선택한다. 훈련 데이터에서는 잔차가 0이 되어 완벽 적합이 발생하지만, 이는 두 점에 포함된 우연한 변동까지 그대로 따라간 결과이므로 일반화 성능이 매우 불안정해진다.
이 예가 주는 핵심 메시지는 다음과 같다. 훈련 \(R^{2}\)나 훈련 MSE는 고차원 또는 고유연성 상황에서 거의 언제든지 좋아질 수 있으므로, 그것만으로 모형의 우수성을 판단하면 쉽게 잘못된 결론에 도달한다. 따라서 변수가 많거나 모형이 유연한 상황일수록, 독립 테스트셋 성능 또는 교차검증 오차를 기준으로 모형을 평가하고 선택해야 한다.
1.3 고차원 데이터와 과적합
고차원 데이터에서 \(p\)가 커질수록 모형이 “훈련 데이터를 맞추는 방법”을 너무 많이 갖게 되어, 신호뿐 아니라 잡음까지 학습하기 쉬워진다. 여기서 고차원은 보통 \(p \approx n\) 또는 \(p > n\)인 상황을 의미한다.
① 훈련 데이터 완벽 적합이 쉬워진다
선형회귀 \(y = X\beta + \varepsilon\)에서 \(p \geq n\)이면 \(X^{\top}X\)가 특이해져 역행렬이 존재하지 않거나, 잔차를 0으로 만드는 해가 여러 개 존재할 수 있다. 훈련 오차(RSS, 훈련 MSE)는 0에 가깝게 만들 수 있지만, 이것은 훈련 데이터의 우연한 변동까지 설명한 결과이므로 일반화 성능이 나빠질 가능성이 크다.
② 잡음 변수가 많아질수록 “우연한 상관”이 늘어난다
고차원에서는 실제로는 반응과 무관한 변수라도, 표본이 유한하면 어떤 변수는 우연히 반응과 상관이 있어 보일 수 있다. 변수가 많아질수록 이런 우연한 상관을 가진 변수가 나타날 확률이 커지고, 모형은 그 변수를 신호로 오인해 계수를 부여한다. 훈련에서는 성능이 좋아지지만 테스트에서는 재현되지 않는 전형적 과적합이 발생한다.
③ 다중공선성과 분산 폭증
고차원에서는 변수 간 상관이 필연적으로 커지기 쉬우며 \(X^{\top}X\)의 조건수가 커지는 경향이 있다. \(\text{Var}(\hat{\beta}) = \sigma^{2}(X^{\top}X)^{-1}\)에서 보듯 계수 추정 분산이 커지고, 작은 데이터 변화가 예측을 크게 흔드는 불안정성이 증가한다.
④ 편향-분산 관점: 과적합은 “분산이 너무 큰 상태”
고차원에서 복잡한 모형을 쓰면 편향은 줄어들 수 있지만 분산이 크게 증가한다. \[\mathbb{E}\!\left[(y - \hat{f}(x))^{2}\right] = \text{편향}^{2} + \text{분산} + \sigma^{2}\] 고차원일수록 정규화나 차원축소가 필요한 이유가 여기에 있다.
고차원에서 과적합을 줄이는 핵심은 모형을 덜 유연하게 만드는 것이다.
| 방법 | 핵심 아이디어 |
|---|---|
| 라쏘 (Lasso) | \(\ell_1\) 벌점으로 불필요한 계수를 0으로 수축 |
| 릿지 (Ridge) | \(\ell_2\) 벌점으로 계수 크기 전체를 축소 |
| 변수 선택 | 신호 변수만 남기고 잡음 변수 제거 |
| PCA / 주성분회귀 | 저차원 부분공간에서만 적합 |
| 교차검증 기반 튜닝 | 훈련 적합도(\(R^2\), 훈련 MSE)가 아닌 검증 성능으로 평가 |
1.4 고차원에서의 회귀
전진 단계적 선택, 릿지 회귀, 라쏘, 주성분회귀는 \(p\)가 크고 \(n\)이 제한된 고차원 상황에서 회귀를 수행할 때 특히 유용한 방법이다. 이 방법들의 공통점은 최소제곱처럼 모든 변수를 자유롭게 사용하여 훈련 데이터를 최대한 맞추는 방식이 아니라, 변수 수를 줄이거나 계수를 수축시키거나 저차원 부분공간에서만 적합하도록 만들어 모형의 유연성을 의도적으로 낮춘다는 점이다. 이 “유연성 감소”가 과적합을 줄이고 일반화 성능을 확보하는 핵심 장치가 된다.
라쏘의 성능을 설명하기 위해 다음과 같은 모의 상황을 생각한다. 훈련 관측치는 \(n=100\)개이며, 후보 특징의 수 \(p\)는 20, 50, 2,000으로 달라지는 세 가지 경우를 고려한다. 중요한 설정은 \(p\)개의 특징 중 실제로 반응과 관련된 신호 특징은 20개뿐이고, 나머지는 반응과 무관한 잡음 특징이라는 점이다. 이때 라쏘를 적합하고, 예측 성능은 훈련 데이터가 아닌 독립적인 테스트셋의 평균제곱오차 MSE로 평가한다.
① \(p\)가 커질수록 테스트셋 오차가 증가하는 경향
단순히 “변수가 많아진다”가 아니라, 그 중 상당수가 신호가 아닌 잡음일 때 잡음이 학습 과정에 끼어들어 과적합을 유발하기 때문이다. 훈련셋에서는 우연한 상관 때문에 잡음 변수에도 계수가 배정될 수 있고, 이는 테스트셋에서는 재현되지 않아 오차 증가로 이어진다.
② 최적의 정규화 강도 \(\lambda\)가 \(p\)에 따라 달라진다
- \(p=20\) (대부분 신호): 작은 \(\lambda\)에서 좋은 성능
- \(p=50\) (잡음 변수 증가): 더 큰 \(\lambda\) 필요
- \(p\)가 클수록 정규화의 역할이 더 중요해진다.
라쏘에서는 \(\lambda\)가 커질수록 0이 아닌 계수의 수가 줄어드는 경향이 있으며, 이를 자유도로 해석하면 “실제로 남겨서 쓰는 변수 개수”가 줄어드는 것으로 이해된다.
③ \(p=2,000\)처럼 잡음이 압도적인 상황에서는 정규화만으로 충분하지 않을 수 있다
표본 크기 \(n=100\)이 너무 작아, 거대한 후보 공간에서 신호 변수 20개를 안정적으로 찾아내기 어렵기 때문이다. 즉 정규화가 과적합을 줄이는 데 도움은 되지만, “신호 대비 잡음이 압도적으로 큰 상황”에서는 정규화만으로 충분하지 않을 수 있다.
마지막 요지는 고차원 분석의 핵심 원리로서 차원의 저주라는 이름으로 요약된다. 변수를 많이 모으면 정보가 늘어 성능이 좋아질 것이라고 기대하기 쉽지만, 실제로는 “유의미한 신호 특징을 추가할 때만” 성능이 개선된다. 반대로 잡음 특징을 추가하면 모형이 훈련 데이터의 우연한 패턴까지 학습하게 되어 분산이 커지고, 그 결과 테스트셋 오차가 증가한다. 따라서 대규모 특징 수집 기술은 문제에 관련된 신호를 충분히 포함하면 강력한 무기가 되지만, 관련 없는 특징이 대량으로 포함되면 오히려 성능을 악화시키는 양날의 검이다.
1.5 고차원에서 결과 해석하기
고차원 상황에서 라쏘, 릿지 회귀 또는 다른 회귀 절차를 수행할 때에는, 얻어진 결과를 보고하는 방식에 특히 주의해야 한다. 고차원 상황에서 다중공선성 문제는 극단적이다. 모형에 포함된 어떤 변수든 모형 안의 다른 모든 변수들의 선형결합으로 표현될 수 있기 때문이다.
본질적으로 이는 결과를 진정으로 예측하는 변수가 정확히 무엇인지를 결코 확실하게 알 수 없고, 회귀에 사용할 ‘최선의’ 계수를 결코 식별할 수 없음을 의미한다. 우리가 할 수 있는 최선은 결과를 진정으로 예측하는 변수들과 상관된 변수들에 큰 회귀계수를 부여하는 정도를 기대하는 것이다.
예를 들어 50만 개의 SNP를 바탕으로 혈압을 예측하려고 하며, 전진 단계적 선택이 그중 17개의 SNP가 훈련 데이터에서 좋은 예측모형을 만든다고 알려 주었다고 하자. 이때 이 17개의 SNP가 모형에 포함되지 않은 다른 SNP들보다 혈압을 더 효과적으로 예측한다고 결론내리는 것은 옳지 않다.
선택된 모형만큼이나 혈압을 잘 예측하는 17개 SNP의 다른 조합이 많이 존재할 가능성이 크다. 독립 데이터셋을 얻어 그 데이터셋에서 전진 단계적 선택을 수행하면, 서로 다른 SNP 집합을 포함하는 모형을 얻을 가능성이 크며, 심지어 선택된 SNP들과 전혀 겹치지 않는 집합을 얻을 수도 있다.
그렇다고 해서 얻어진 모형의 가치가 사라지는 것은 아니다. 예를 들어 그 모형이 독립 환자 집합에서 혈압을 매우 효과적으로 예측하여 임상적으로 유용할 수도 있다.
| 잘못된 관행 | 올바른 대안 |
|---|---|
| 훈련 \(R^2\)로 모형 우수성 판단 | 독립 테스트셋 \(R^2\) 또는 교차검증 오차 |
| 훈련 MSE로 성능 평가 | 테스트셋 MSE |
| “\(p > n\)이어도 \(R^2 = 1\)”을 성과로 보고 | 이는 설득력 있는 모형의 증거가 전혀 아님 |
| 선택된 변수 집합을 유일한 최선으로 제시 | 동등하게 좋은 다른 조합이 많을 수 있음을 명시 |
| 훈련 데이터의 p-값으로 유의성 판단 | 고차원에서는 선택 편향이 극심함 |
핵심 원칙: 얻어진 결과를 과장하지 않도록 주의하고, 독립 데이터셋에서 추가 검증이 필요함을 명확히 해야 한다.
2 차원축소의 필요성
차원축소는 고차원 데이터에서 정보를 요약하여 더 안정적인 추정과 더 나은 일반화를 얻기 위한 방법론이다.
관측 데이터 행렬을 \(X \in \mathbb{R}^{n \times p}\)라 할 때, 차원축소는 \(p\)개의 원변수를 \(k \ll p\)개의 표현 \(Z \in \mathbb{R}^{n \times k}\)로 바꾸는 과정이다.
\[Z = XW, \quad W \in \mathbb{R}^{p \times k}\]
여기서 \(W\)는 투영 행렬(projection matrix)이다. 차원축소가 필요한 이유는 네 가지 관점에서 설명된다: 다중공선성, 차원의 저주, 계산 안정성, 시각화·노이즈 제거·일반화.
2.1 다중공선성: 왜 추정이 불안정해지는가
다중공선성은 설명변수들 사이의 강한 선형 의존성이 추정의 분산을 키우고 계수 해석을 불안정하게 만드는 현상이다. 선형회귀 모형이 \(y = X\beta + \varepsilon\)로 주어질 때, 최소제곱추정량은 \(\hat{\beta} = (X^{\top}X)^{-1}X^{\top}y\)로 정의된다.
이때 \(X^{\top}X\)가 거의 특이행렬에 가까우면 \((X^{\top}X)^{-1}\)이 매우 큰 값을 가지게 되어, 표본의 작은 변화가 \(\hat{\beta}\)의 큰 변화로 증폭된다. 이는 다음 관계에서 직접 확인된다.
\[\text{Var}(\hat{\beta}) = \sigma^{2}(X^{\top}X)^{-1}\]
즉 \(X^{\top}X\)의 역행렬이 커지는 방향으로 불안정해지는 순간, 다음 현상이 나타난다.
- 추정량의 분산이 커진다 → 신뢰구간이 넓어지고 추정이 불안정
- 계수 부호가 쉽게 바뀐다 → 해석이 붕괴
- “어떤 변수가 얼마나 중요한가”라는 해석 자체가 붕괴
이는 \(X\beta\)는 유사하게 유지되더라도 \(\beta\)의 분해가 유일하지 않거나 수치적으로 민감해지기 때문이다. 즉, 예측은 그럭저럭 유지되더라도 해석은 무너진다.
차원축소의 해결책: 상관이 강한 변수들이 공유하는 변동을 몇 개의 축으로 묶어 \(Z = XW\)로 재표현하여 중복 정보를 제거하고 문제의 유효 차원을 낮춘다. 이 과정은 \((X^{\top}X)\)의 불안정한 방향을 제거하거나 약화시켜, 추정량의 분산을 줄이는 방향으로 작동한다.
2.2 차원의 저주: 거리/밀도/표본크기 관점
차원의 저주는 차원이 증가할수록 데이터가 희소해지고 거리와 밀도의 직관이 무너지며 필요한 표본크기가 급격히 증가하는 현상이다.
① 거리 관점 — 고차원에서는 점들 간 거리가 서로 비슷해진다
성분들이 독립이고 \(\mathbb{E}(X_j) = 0,\ \text{Var}(X_j) = 1\)인 벡터 \(X = (X_1,\ldots,X_p)\)에 대해 \[\|X\|^2 = \sum_{j=1}^{p}X_j^2 \;\sim\; \text{평균 } p,\; \text{분산 } 2p\]
따라서 \(\|X\|\)는 대략 \(\sqrt{p}\) 근처에 집중되는 경향이 강해진다. 이 집중 현상은 서로 다른 점들 사이의 거리도 비슷해지게 하여, 최근접 이웃과 최원거리 이웃의 차이가 상대적으로 작아지는 문제로 이어진다. 거리 기반 방법론에서 “가깝다”라는 개념이 약해지는 이유가 여기에 있다.
② 밀도 관점 — 공간을 충분히 채우려면 표본수가 폭발한다
각 차원을 동일 간격으로 \(m\)등분하여 공간을 커버한다고 가정하면, 필요한 격자점 수는 \(m^p\)가 된다. \(p\)가 커질수록 표본 요구량이 기하급수적으로 증가하는 것이 차원의 저주의 핵심 특징이다.
③ 기하학적 관점 — 고차원에서는 “중심부”가 사라진다
\([-1,1]^p\) 하이퍼큐브의 부피 \(2^p\)에 비해, 반지름 1 하이퍼스피어의 부피 \[V_p = \frac{\pi^{p/2}}{\Gamma(p/2+1)}\] 의 비율 \(V_p / 2^p\)는 \(p\)가 커질수록 빠르게 0에 가까워진다. 즉 차원이 커질수록 구 형태의 “중심” 영역이 전체 공간에서 차지하는 비중이 급격히 작아진다.
차원축소는 데이터가 실제로는 저차원 구조에 가깝다는 가정 아래, 학습이 이루어지는 공간을 \(k \ll p\)로 줄여 희소성과 거리 붕괴 문제를 완화하는 전략이다.
2.3 계산 안정성: 역행렬, 조건수, 수치오차와 정규화의 연결
계산 안정성은 통계적 추정과 학습이 수치적으로 얼마나 신뢰 가능하게 수행되는지를 의미한다. 통계 모델링에서는 역행렬, 고유값 분해, 선형연립방정식 풀이와 같은 연산이 빈번히 등장한다.
선형회귀의 \((X^{\top}X)^{-1}\)뿐 아니라, 공분산 행렬 \(S = \frac{1}{n-1}X^{\top}X\)의 고유값 분해, 가우시안 모형에서 \(\Sigma^{-1},\log|\Sigma|\) 계산 등이 대표적 사례이다.
행렬 \(A\)의 조건수 \(\kappa(A) = \|A\|\|A^{-1}\|\)가 크면, 입력의 작은 오차가 출력에 크게 증폭된다. 실데이터에는 측정오차와 반올림오차가 항상 존재하므로, 조건수가 큰 문제는 본질적으로 불안정하다.
특히 고차원에서는 \(p\)가 \(n\)에 비해 커지기 쉬우며, \(p \geq n\)이면 \(X^{\top}X\)는 특이행렬이 되어 역행렬이 존재하지 않는다. 이 상황은 최소제곱추정이 정의되지 않거나 무수히 많은 해를 갖는 문제로 연결된다.
정규화와 차원축소의 연결
- 릿지 회귀: \(\hat{\beta}_\lambda = (X^{\top}X + \lambda I)^{-1}X^{\top}y\) — \(\lambda I\)를 더함으로써 고유값이 작은 방향을 부풀려 조건수를 개선한다.
- 차원축소: 불안정성을 유발하는 작은 고유값 방향을 제거하거나, \(Z = XW\)로 문제의 차원을 줄여 이후 연산을 더 작은 공간에서 수행하게 만들어 수치오차 민감도를 낮춘다.
2.4 시각화·노이즈 제거·일반화
차원축소는 시각화와 탐색적 분석을 가능하게 하는 실용적 도구이기도 하다. \(p\)가 큰 데이터는 원공간에서 구조를 보기 어려우므로, \(k = 2\) 또는 \(3\)으로 줄인 표현 \(Z\)를 통해 군집, 이상치, 경향성을 확인하는 절차가 유효하다. 이는 모델 학습 이전에 데이터의 구조적 가설을 세우는 데 중요한 역할을 한다.
또한 차원축소는 노이즈 제거의 방법이기도 하다. 관측 변수는 보통 신호와 잡음이 섞여 있는 형태이며, 잡음은 상대적으로 작은 분산 또는 불규칙한 방향으로 나타나는 경향이 있다.
PCA 관점에서는 큰 고유값을 갖는 몇 개의 주성분이 주요 신호를 설명하고, 작은 고유값 방향은 잡음에 가까운 경우가 많다는 직관이 성립한다. 따라서 상위 \(k\)개 성분만 남기면 데이터가 매끄러워지고 모델이 잡음을 따라가지 않게 되는 효과가 발생한다.
일반화 성능 측면에서 “차원을 줄였더니 오히려 성능이 좋아지는” 현상은 편향-분산 관점으로 설명된다. 표현을 \(Z\)로 바꾸는 것은 모델의 입력 차원을 줄여 유효 복잡도를 낮추는 조치이다. 이는 분산을 줄이는 방향으로 작동하며, 원데이터의 불필요한 변동을 제거하는 과정과 결합되면 테스트 성능이 향상될 수 있다.