차원축소: 비지도학습

Author

권세혁

1 비지도 학습

비지도 표현학습이란?

정답 라벨 \(y\) 없이 입력 데이터 \(x\) 자체로부터 유용한 표현 \(z\)를 학습하는 방법론이다. 오토인코더(autoencoder)는 입력 \(x \in \mathbb{R}^p\)를 저차원 잠재표현 \(z \in \mathbb{R}^k\)로 인코딩한 뒤 다시 \(\hat{x} \in \mathbb{R}^p\)로 복원하도록 신경망을 학습시키는 구조이다.

\[x \xrightarrow{\text{인코더}} z \xrightarrow{\text{디코더}} \hat{x}\]

\(x \to z\): 표현학습 (차원축소)
\(z \to \hat{x}\): 정보 보존을 강제하는 제약

오토인코더는 단순히 변수를 줄이는 절차가 아니라, 데이터가 갖는 구조를 보존하는 방식으로 저차원 표현을 자동으로 학습하는 방법이다.

1.1 비지도학습과 차원축소

비지도학습의 핵심 목표 중 하나가 “라벨 없이 데이터의 구조를 요약한 저차원 표현 \(Z\)”를 만드는 일이다. 즉 차원축소는 비지도학습이 가장 전형적으로 수행하는 과제 중 하나이며, 많은 비지도 기법이 결과적으로 \(X \to Z\) 형태의 표현을 만든다.

비지도학습을 차원축소 맥락에서 다루는 네 가지 이유

① 라벨이 없을 때 가장 확실한 학습 목표가 “구조 보존 요약”이다

지도학습은 \(y\)가 주어지므로 “예측 오차 최소화”라는 목표가 명확하다. 반면 비지도학습은 \(y\)가 없으므로, 데이터 자체의 규칙성—분산, 거리, 재구성, 밀도—을 보존하면서 더 간단한 표현으로 압축하는 것이 가장 기본적인 목표가 된다.

② 차원축소는 “표현학습”의 가장 표준적인 형태이다

차원축소는 원변수 공간의 정보를 \(k \ll p\)인 잠재표현으로 옮기는 과정이며, 이는 곧 표현학습이다. 오토인코더와 VAE는 비지도 표현학습의 대표 방법이며, 병목 구조는 차원축소의 직접적 구현이다.

③ 다운스트림 ML 성능의 출발점이 입력 표현이다

실무에서는 비지도 방식으로 먼저 \(Z\)를 만든 다음 분류·회귀를 수행하는 파이프라인이 흔하다. 이때 차원축소는 과적합 완화, 계산 안정화, 노이즈 제거, 시각화의 역할을 동시에 수행한다.

④ 군집화·시각화·이상치탐지도 차원축소와 결합된다

고차원에서는 거리 기반 군집화나 이상치 탐지가 불안정해지기 쉬우므로, 먼저 저차원 표현으로 옮긴 뒤 구조를 분석하는 방식이 흔하다.

1.2 Autoencoder: 재구성 오차 최소화로 학습되는 표현

오토인코더는 인코더 \(f_{\phi}(\cdot)\)와 디코더 \(g_{\theta}(\cdot)\)로 구성되는 신경망 모형이다.

\[z = f_{\phi}(x),\qquad \hat{x} = g_{\theta}(z) = g_{\theta}(f_{\phi}(x))\]

학습 목표는 \(\hat{x}\)가 \(x\)와 최대한 같아지도록 만드는 것이며, 재구성 손실(reconstruction loss)을 최소화한다.

\[\min_{\phi,\theta}\frac{1}{n}\sum_{i=1}^{n}\ell(x_i,\, g_{\theta}(f_{\phi}(x_i)))\]

손실함수 선택

데이터 타입	손실함수	의미
연속형 실수	\(\ell(x,\hat{x}) = \\|x - \hat{x}\\|_2^2\)	제곱오차 (MSE)
이진 데이터	크로스엔트로피	베르누이 우도에 대응

오토인코더의 학습 결과로 얻어지는 핵심 산출물은 잠재표현 \(z\)이며, 이 \(z\)가 이후 분류·회귀·군집·이상치 탐지 등의 다운스트림 과제에 투입되는 특징으로 사용된다.

오토인코더는 비지도 학습이지만, 학습 과정에서의 “정답”은 입력 \(x\) 자체이므로 자기지도(self-supervised) 구조를 갖는다고도 이해된다.

1.3 Bottleneck 구조와 차원축소의 대응

병목(Bottleneck) 구조의 역할

오토인코더가 유의미한 표현을 학습하려면 “그냥 복사하기”가 어렵도록 제약이 필요하다. 가장 기본적인 제약이 병목 구조이다.

\[k < p \quad (\text{잠재차원} < \text{입력차원})\]

인코더: \(p\)차원의 정보를 \(k\)차원으로 압축
디코더: \(k\)차원의 압축된 정보로 \(p\)차원의 입력을 복원
결과: \(z\)는 입력의 핵심 요약을 담을 수밖에 없음 → 차원축소와 직접 대응

단, \(k < p\)라는 제약만으로 항상 좋은 표현이 보장되지는 않는다. 신경망의 표현력이 지나치게 크면, 매우 복잡한 비선형 함수를 통해 사실상 훈련 데이터를 암기하는 형태로 재구성 손실을 줄일 수 있다. 따라서 병목은 차원 제약을 제공하지만, 일반화 가능한 표현을 얻기 위해서는 추가 정규화가 함께 요구된다.

1.4 정규화와 변형

오토인코더는 “재구성을 잘 하는 것”이 목표이지만, 재구성을 지나치게 잘 하면 오히려 일반화가 떨어질 수 있다. 따라서 재구성 성능과 표현의 일반화 사이의 균형을 위해 다양한 정규화 방식과 변형이 사용된다.

오토인코더 변형 세 가지 비교

유형	핵심 아이디어	목적함수	효과
Denoising AE	잡음 섞인 \(\tilde{x}\)로부터 원래 \(x\) 복원	\(\min \ell(x,\, g_\theta(f_\phi(\tilde{x})))\)	잡음 강건성, 국소 구조 학습
Sparse AE	잠재표현 \(z\)의 성분이 0에 가까워지도록 유도	\(\min \ell + \lambda\Omega(z)\)	희소 부분표현, 해석가능성 향상
Contractive AE	입력 변화에 대한 인코더 민감도를 벌점화	\(\min \ell + \lambda\\|\frac{\partial f_\phi}{\partial x}\\|_F^2\)	매끄러운 잠재공간, 국소 불변 표현

1.4.1 Denoising Autoencoder

Denoising AE는 입력 \(x\)에 의도적으로 잡음을 섞은 \(\tilde{x}\)를 만들고, 그로부터 원래의 \(x\)를 복원하도록 학습하는 방식이다.

\[\tilde{x} \sim q(\tilde{x}\mid x),\qquad \hat{x} = g_{\theta}(f_{\phi}(\tilde{x}))\]

이 방식은 입력의 작은 변형에 불변인 표현을 학습하게 하며, 잡음에 강건한 특징을 얻도록 유도한다. 결과적으로 데이터의 국소적 구조를 따라가면서도 우연한 변동을 무시하는 표현이 강화된다.

1.4.2 Sparse Autoencoder

Sparse AE는 잠재표현 \(z\)의 많은 성분이 0에 가까워지도록 희소성을 유도하는 방식이다.

\[\min_{\phi,\theta}\frac{1}{n}\sum_{i=1}^{n}\ell(x_i,\hat{x}_i) + \lambda\Omega(z_i)\]

\(\Omega(\cdot)\)는 \(L_1\) 패널티 \(\|z\|_1\) 또는 평균 활성화가 특정 값에 가깝도록 만드는 KL 기반 페널티 등이 사용된다. 희소성은 “몇 개의 특징만 켜져서 입력을 설명한다”는 표현을 만들며, 해석 가능한 부분표현을 형성하는 데 유리한 경향이 있다.

1.4.3 Contractive Autoencoder

Contractive AE는 입력 \(x\)가 조금 변할 때 잠재표현 \(z = f_{\phi}(x)\)가 크게 변하지 않도록, 인코더의 민감도를 직접 벌점으로 두는 방식이다.

\[\min_{\phi,\theta}\frac{1}{n}\sum_{i=1}^{n}\ell(x_i,\hat{x}_i) + \lambda\left\|\frac{\partial f_{\phi}(x_i)}{\partial x_i}\right\|_F^2\]

이 방식은 국소적으로 매끄러운 표현을 유도하여, 작은 입력 변동에 강건한 잠재공간을 형성한다.

1.4.4 잠재차원 \(k\) 선택과 과적합·언더핏 신호

잠재차원 \(k\) 선택 시 주의사항

상황	신호	원인
\(k\)가 너무 작음	훈련·검증 손실 모두 높음, 손실이 충분히 내려가지 않음	언더핏: 중요한 정보를 담지 못함
\(k\)가 너무 크거나 모델 과복잡	훈련 손실 매우 낮음, 검증 손실 내려가지 않거나 증가	과적합: 표본 특이적 세부를 암기

권장 방법: - 재구성 손실의 교차검증 또는 홀드아웃 검증으로 \(k\) 선택 - 다운스트림 과제가 있으면 각 \(k\)에 대해 분류·회귀 성능을 비교하여 선택

1.5 PCA vs Linear AE: 언제 같고 언제 다른가

PCA와 선형 오토인코더의 관계

조건	결과
선형 AE + 제곱오차 + 직교 제약 있음	PCA와 동일한 부분공간 산출
선형 AE + 제곱오차 + 직교 제약 없음	같은 부분공간을 다른 기저로 표현 가능
비선형 AE (활성함수 + 깊은 네트워크)	선형 부분공간이 아닌 비선형 다양체 학습

선형 오토인코더의 수학적 등가성

인코더·디코더를 \(f_\phi(x) = W^{\top}x,\ g_\theta(z) = Wz\)로 두면, 재구성은 \(\hat{X} = XWW^{\top}\)이 되며 목적함수는

\[\min_{W^{\top}W = I_k} \|X - XWW^{\top}\|_F^2\]

이는 PCA의 재구성 관점 최적화와 동일한 문제이며, 해는 \(X^{\top}X\)의 상위 \(k\)개 고유벡터로 주어진다.

그러나 실제 구현에서는 두 방법이 달라질 수 있는 요인이 존재한다.

직교 제약 유무: 선형 AE에 직교 제약이 없으면 동일한 부분공간을 다른 기저로 표현하는 해가 나타날 수 있다.
최적화 방식: PCA는 고유값 분해로 전역해를 얻는 반면, AE는 경사하강 기반 학습이므로 초기값과 학습 설정에 따라 수렴 양상이 달라질 수 있다.
비선형성: 비선형 활성함수와 깊은 네트워크를 사용하면 AE는 선형 부분공간이 아니라 비선형 다양체에 가까운 구조를 학습할 수 있으며, 데이터가 비선형 구조를 갖는 경우 재구성과 다운스트림 성능에서 PCA를 능가할 수 있다.

2 확률적 표현모형: 변분 오토인코더(VAE)

확률적 표현모형은 입력 \(x\)를 하나의 고정된 잠재벡터 \(z\)로 압축하는 대신, \(z\)를 확률변수로 두고 그 분포를 학습하는 방식의 표현학습이다.

AE vs VAE: 핵심 차이

관점	Autoencoder	VAE
잠재표현	결정론적 점 \(z = f_\phi(x)\)	확률분포 \(q_\phi(z\mid x)\)
학습 목표	재구성 오차 최소화	ELBO 최대화
샘플링	불가 (잠재공간이 불연속)	가능 (\(p(z)\)로 새 데이터 생성)
잠재공간 정규화	없음	KL 항으로 강제
용도	특징 압축, 이상치 탐지	생성 + 표현학습

오토인코더가 \(x \to z \to \hat{x}\)의 결정론적 경로로 재구성 오차를 최소화하는 구조라면, VAE는 \(z\)를 잠재확률변수로 설정하고 \(x\)가 어떤 잠재분포로부터 생성된 관측치라는 생성 관점을 함께 도입한다.

2.1 VAE 개념: 인코더-디코더와 확률적 잠재변수

VAE는 데이터 생성과 표현학습을 동시에 다루는 모형이다. 기본 아이디어는 잠재변수 \(z \in \mathbb{R}^k\)가 먼저 생성되고, 그 \(z\)로부터 관측 \(x \in \mathbb{R}^p\)가 생성된다고 가정하는 것이다.

\[z \sim p(z),\qquad x \sim p_\theta(x\mid z)\]

\(p(z)\): 잠재변수의 사전분포, 보통 \(p(z) = \mathcal{N}(0,I)\)
\(p_\theta(x\mid z)\): 디코더가 매개변수화하는 조건부분포 (생성기 역할)
- 연속형: \(p_\theta(x\mid z) = \mathcal{N}(\mu_\theta(z),\sigma^2 I)\)
- 이진형: 베르누이 분포

관측 \(x\)가 주어졌을 때 잠재변수의 사후분포 \(p_\theta(z\mid x)\)를 구하고 싶지만, 일반적으로 계산이 어렵다. VAE는 이를 근사하기 위해 인코더가 근사 사후분포 \(q_\phi(z\mid x)\)를 출력하도록 한다.

\[q_\phi(z\mid x) = \mathcal{N}(\mu_\phi(x),\, \text{diag}(\sigma_\phi^2(x)))\]

따라서 VAE의 잠재표현은 “점”이 아니라 “분포”이며, 관측치마다 잠재공간에서 평균과 불확실성을 함께 갖는 표현이라는 점이 핵심이다.

2.2 ELBO 직관: 재구성 항과 KL 정규화

VAE 학습의 목표는 관측 데이터의 주변우도 \(p_\theta(x)\)를 크게 만드는 것이다. 즉 \(\max_\theta \sum_{i=1}^n \log p_\theta(x_i)\)를 하고 싶지만, \(p_\theta(x) = \int p_\theta(x\mid z)p(z)\,dz\)의 적분이 고차원에서 어렵기 때문에 직접 최적화가 곤란하다.

ELBO (Evidence Lower BOund)

VAE는 변분추론을 통해 \(\log p_\theta(x)\)의 하한을 최대화하는 방식으로 학습한다.

\[\log p_\theta(x) \;\geq\; \underbrace{\mathbb{E}_{q_\phi(z\mid x)}\!\left[\log p_\theta(x\mid z)\right]}_{\text{재구성 항}} - \underbrace{KL\!\left(q_\phi(z\mid x) \,\|\, p(z)\right)}_{\text{정규화 항}} = \text{ELBO}\]

항	역할	직관
재구성 항	디코더가 잠재변수로부터 \(x\)를 얼마나 잘 생성하는지	연속형 데이터에서는 제곱재구성오차와 대응
KL 정규화 항	인코더 출력 잠재분포가 사전분포 \(p(z)\)와 너무 멀어지지 않도록 벌점	잠재공간을 “정리”하여 샘플링 가능한 형태로 유지

두 항의 균형이 VAE 표현의 성질을 결정하는 핵심이다.

2.3 잠재공간 해석: 보간, 클러스터, disentanglement

VAE 잠재공간의 세 가지 해석 관점

① 보간 (Interpolation)

두 관측치 \(x^{(a)}, x^{(b)}\)의 잠재평균 \(\mu^{(a)}, \mu^{(b)}\)를 구한 뒤, \[z(t) = (1-t)\mu^{(a)} + t\mu^{(b)},\quad t \in [0,1]\] 를 디코더에 넣어 \(\hat{x}(t) \sim p_\theta(x\mid z(t))\)를 생성해 보는 절차이다. 보간 결과가 부드럽게 변화하면 잠재공간이 연속적인 의미 구조를 학습한 것으로 해석된다. 일반 AE보다 VAE의 보간 경로가 더 자연스럽게 나타나는 경향이 있다.

② 클러스터 구조

잠재공간에서 유사한 관측치가 가까이 모이는지를 보는 관점이다. 동일한 범주나 유사한 속성을 가진 데이터가 \(z\) 공간에서 군집을 형성하면, 잠재표현이 유사성을 보존하는 의미를 갖는다.

③ Disentanglement

잠재변수의 각 차원이 서로 다른 의미 요인을 분리해 담는 정도이다. 예를 들어 한 잠재차원은 밝기, 다른 잠재차원은 형태처럼 요인이 분리되어 표현되면 해석 가능성이 높아진다. VAE는 독립적인 사전분포 \(p(z) = \mathcal{N}(0,I)\)를 두는 경우가 많아 요인 분리에 유리한 성질을 가질 수 있으나, 일반 VAE가 disentanglement를 항상 보장하지는 않는다.

2.4 표현학습과 생성모형의 경계: 왜 샘플링이 가능한가

VAE가 오토인코더와 구분되는 가장 중요한 지점은 샘플링이 가능한 생성모형이라는 점이다. 오토인코더는 \(z = f_\phi(x)\)가 훈련 데이터로부터만 얻어지는 표현이며, 임의의 \(z\)를 넣었을 때 그 결과가 의미 있는 \(x\)가 된다는 보장이 약하다. 잠재공간이 데이터가 놓인 부분만 “조각나게” 채워질 수 있기 때문이다.

VAE에서 샘플링이 가능한 이유

VAE에서는 \(z\)에 대한 사전분포 \(p(z)\)를 명시하고, 학습 과정에서 \(KL(q_\phi(z\mid x) \| p(z))\)를 통해 각 데이터의 잠재분포가 \(p(z)\)와 가까워지도록 강제한다. 그 결과 학습이 잘 되면 잠재공간 전체가 \(p(z)\)의 질량이 놓이는 영역에서 비교적 규칙적으로 채워진다.

따라서 학습 후에는 두 단계로 새로운 데이터를 생성할 수 있다. \[z \sim p(z) \;\longrightarrow\; x \sim p_\theta(x\mid z)\]

이것이 VAE에서 샘플링이 가능한 이유이며, 표현학습이 생성모형으로 확장되는 지점이다.

3 해석성과 표현력

차원축소와 표현학습의 핵심 선택은 해석성(해석 가능성)과 표현력(표현 능력) 사이의 균형을 어디에 둘 것인가의 문제이다.

선형 vs 비선형 차원축소의 본질적 차이

선형 차원축소: 구조가 단순하여 해석이 명확한 장점이 있는 반면, 복잡한 비선형 구조를 충분히 담지 못하는 한계가 있다.
비선형 표현학습: 복잡한 패턴을 포착하는 능력이 크지만, 학습된 표현이 무엇을 의미하는지 설명하기 어렵고, 데이터와 학습 설정에 따라 불안정해질 수 있다.

3.1 선형 ↔︎ 비선형: 표현력 증가의 대가

선형 차원축소는 관측 \(x \in \mathbb{R}^p\)를 선형 변환으로 저차원 표현 \(z \in \mathbb{R}^k\)로 만드는 방식이다. PCA는 \(z = W^{\top}x\) 형태이며, 요인분석은 \(x = \Lambda f + \varepsilon\) 형태로 공통요인을 가정한다. 선형 방법은 표현이 선형결합이므로 구조가 투명하고, 계산이 안정적이며, 표본이 크지 않아도 비교적 견고하게 작동한다.

비선형 표현학습은 \(z = f_\phi(x)\)가 비선형 함수가 되는 방식이다. 오토인코더와 VAE는 다층 신경망을 통해 복잡한 비선형 변환을 학습하여, 선형 부분공간이 아니라 비선형 다양체 구조를 포착할 수 있다.

표현력 증가에 따른 네 가지 대가

대가	내용
표본 요구량 증가	비선형 모형은 파라미터가 많고 함수공간이 넓으므로, 안정적 일반화에 충분한 표본과 정규화가 필요
최적화 불확실성	PCA는 고유값 분해로 전역해가 주어지지만, AE는 경사하강 기반 학습으로 초기값·학습률에 따라 수렴 결과가 달라짐
과적합 위험	비선형 모델은 재구성 손실을 매우 낮추는 방식으로 훈련 데이터를 암기할 수 있어 일반화 목적과 충돌
해석 가능성 감소	선형 로딩은 변수 기여도를 직접 보여주지만, 비선형 잠재표현은 동일한 수준의 직접 해석이 어려움

선형→비선형 이동은 더 강한 표현력을 얻는 대신, 더 큰 데이터 요구·더 강한 정규화 필요·더 큰 최적화 불확실성·더 낮은 해석 가능성을 감수하는 선택이다.

3.2 설명 가능성 비교: PCA·요인분석의 로딩과 AE·VAE의 잠재특성

PCA·FA vs AE·VAE: 해석 방식 비교

관점	PCA·요인분석	AE·VAE
해석 기반	로딩 행렬 \(W\), \(\Lambda\) (선형 계수)	잠재공간 조작·생성 결과 (실험적)
변수 기여도	로딩으로 직접 확인 가능	직접 읽어내기 어려움
분산 분해	공통성 \(h_j^2\), 고유성 \(\psi_j\)	없음
해석 가능성	높음 (구조적·직접적)	낮음 (간접적·사후적)
회전	Varimax 등으로 해석 단순화	해당 없음

PCA와 요인분석은 로딩 행렬을 중심으로 해석이 가능하다. PCA에서는 \(Z = XW\)에서 \(W\)의 각 열 \(w_m\)이 \(m\)번째 주성분의 로딩이며, 원변수들이 그 주성분에 어떻게 기여하는지가 계수로 드러난다.

오토인코더와 VAE는 잠재표현이 신경망의 내부 표현으로 정의되므로 “변수 기여도”를 직접 읽어내기 어렵다. 따라서 잠재특성의 해석은 보통 간접적 방법으로 이루어진다.

민감도 분석: 잠재차원 하나를 변화시키며 디코더 출력이 어떻게 바뀌는지 관찰
기여도 근사: 입력 변수에 대한 기여도를 수치적으로 근사
군집 비교: 잠재공간에서의 군집 구조를 라벨과 비교

VAE는 오토인코더와 달리 잠재변수 \(z\)를 확률변수로 두고 \(q_\phi(z\mid x)\)를 학습하므로, 잠재표현에 불확실성이 포함된다. 잠재공간의 해석은 보간, 샘플링, 잠재차원 조작을 통해 수행된다.

3.3 선택 가이드: 데이터 규모, 비선형성, 목적, 규제와 설명책임

차원축소 방법 선택 가이드

기준	PCA / 요인분석	AE / VAE
데이터 규모	소~중규모, 안정성 우선	충분히 큰 표본 필요
데이터 구조	선형 부분공간에 가까울 때	비선형 다양체 구조일 때
목적: 시각화·탐색	기본 선택	가능하나 해석 복잡
목적: 예측	CV로 다운스트림 성능 비교	CV로 다운스트림 성능 비교
목적: 생성	불가	VAE가 자연스러운 선택
설명 책임	로딩·공통성으로 근거 제시 용이	추가 해석 절차 필요, 적용 장벽 높음
운영 안정성	실행 결과 안정·재현성 높음	학습 설정에 따라 결과 달라질 수 있음

요약: 해석성과 안정성이 우선인 상황에서는 PCA·요인분석이 기본 선택이다. 데이터가 크고 비선형성이 강하며 예측·생성이 핵심이면 AE·VAE가 유리해질 수 있다.

방법 선택의 핵심 원칙은 다음과 같다.

목적에 맞는 평가 기준을 먼저 정할 것: 시각화라면 구조 보존, 예측이라면 다운스트림 성능, 생성이라면 샘플 품질
교차검증과 외부 검증으로 표현의 유용성과 안정성을 확인할 것
설명 책임이 강한 환경에서는 해석 가능성이 높은 선형 방법을 우선 검토할 것
이미지·음성·텍스트처럼 고차원 비선형 구조가 강한 데이터에서는 비선형 표현학습의 이점이 커질 수 있다