MLDL 예측방법 | 서론
1 예측모형 통계적 정의
1.1 예측 문제의 통계적 정의
예측이란 설명변수 \(X\)가 주어졌을 때 반응변수 \(Y\)의 값을 가능한 한 정확하게 추정하는 문제이다. 여기서는 반응변수가 연속형인 경우, 즉 \(Y \in \mathbb{R}\)인 상황을 다룬다.
통계적 관점에서 예측 문제는 함수 추정 문제로 정의된다. 확률변수 \((X, Y)\)에 대해, 기대제곱오차를 최소화하는 함수 \(f\)를 찾는 것이 목표이다.
\[f^{*} = \arg\min_{f} \mathbb{E}\left[(Y - f(X))^{2}\right]\]
제곱오차 손실 하에서의 최적 해는
\[f^{*}(x) = \mathbb{E}[Y \mid X = x]\]
그러나 실제 데이터 분석에서는 \(\mathbb{E}[Y \mid X = x]\)를 정확히 알 수 없으므로, 제한된 표본 데이터를 이용해 이를 근사(approximation)한다.
즉, 예측 문제는 본질적으로 “미지의 함수 \(f^{*}\)를 데이터로부터 얼마나 잘 근사할 수 있는가”라는 질문으로 귀결된다.
1.2 불가약오차(Irreducible Error)와 잡음 모델
현실의 데이터에서 \(Y\)는 \(X\)만으로 완전히 결정되지 않는다. 동일한 \(X\)가 주어져도 관측되는 \(Y\)는 여러 요인의 영향으로 변동할 수 있으며, 이 변동은 예측모형이 아무리 정교해도 완전히 제거할 수 없다.
1.2.1 잡음 모델: \(Y = f^{*}(X) + \varepsilon\)
예측의 이론적 최적함수 \(f^{*}(x) = \mathbb{E}[Y \mid X = x]\)를 기준으로,
\[Y = f^{*}(X) + \varepsilon\]
여기서 \(\varepsilon\)는 \(X\)로 설명되지 않는 변동(잡음)을 나타내며, 정의상 \(\mathbb{E}[\varepsilon \mid X] = 0\)을 만족한다. 즉, \(\varepsilon\)는 “평균적으로는 0이지만, 개별 관측치에서는 예측을 흔드는 요인”이다. 이 표현은 예측문제가 결국 신호(signal) \(f^{*}(X)\)와 잡음(noise) \(\varepsilon\)를 구분하는 작업임을 보여준다.
1.2.2 불가약오차의 의미
어떤 예측함수 \(f\)를 사용하더라도 기대제곱오차는 0이 될 수 없다. 최적함수 \(f^{*}\)를 사용하더라도 남는 오차는
\[\mathbb{E}\left[(Y - f^{*}(X))^{2}\right] = \mathbb{E}[\text{Var}(Y \mid X)]\]
즉 불가약오차는 “\(X\)가 주어졌을 때 \(Y\)가 본질적으로 가지는 변동성(조건부 분산)”의 평균이며, 데이터 생성 과정 자체가 갖는 한계이다. 예측모형의 목표는 불가약오차를 없애는 것이 아니라, 그 위에 추가로 발생하는 오차를 최소화하는 것이다.
1.2.3 오차 분해: 줄일 수 있는 것 vs 줄일 수 없는 것
임의의 예측함수 \(f\)에 대해 제곱오차는 다음과 같이 분해된다.
\[\mathbb{E}\left[(Y - f(X))^{2}\right] = \underbrace{\mathbb{E}\left[(Y - f^{*}(X))^{2}\right]}_{\text{불가약오차}} + \underbrace{\mathbb{E}\left[(f^{*}(X) - f(X))^{2}\right]}_{\text{근사/추정 오차}}\]
두 번째 항은 \(f\)가 \(f^{*}\)를 얼마나 잘 근사하는지에 따라 달라지며, 모형 선택·규제·데이터 크기 등에 의해 줄일 수 있다. 반면 첫 번째 항은 데이터 생성 과정의 잡음 크기에 의해 결정되며, 모형을 바꿔도 사라지지 않는다.
이 오차 분해가 그 이유를 설명한다. 불가약오차라는 근본적 하한이 존재하기 때문이다. “왜 과적합을 피해야 하는가”도 같은 논리로 설명된다 — 근사/추정 오차를 줄이려다 오히려 불안정성을 키우면 전체 오차가 증가한다.
1.2.4 실무적 해석과 함의
불가약오차가 크다는 것은, \(X\)만으로는 \(Y\)를 정밀하게 예측하기 어렵다는 뜻이다. 대응 방향은 두 가지이다.
- 정보 추가(특징 확장): 더 유의미한 설명변수(센서, 설문, 로그 등)를 확보하면 \(\text{Var}(Y \mid X)\)를 줄일 수 있다.
- 목표 조정: 점예측의 한계를 인정하고, 예측구간/확률예측처럼 불확실성을 함께 보고한다.
요약하면, 예측모형의 성능에는 근본적 하한이 존재하며(불가약오차), 우리가 할 수 있는 일은 그 하한 위에서 \(f^{*}\)에 최대한 가까운 \(\hat{f}\)를 학습하도록 복잡도 조절과 검증 기반 선택을 수행하는 것이다.
1.3 Y가 이진형·범주형인 경우: 분류 문제
반응변수가 이진형인 경우, 예측 문제는 분류(classification) 문제로 구분된다. \(Y \in \{0, 1\}\) 또는 보다 일반적으로 \(Y \in \{1, 2, \ldots, K\}\)와 같이 유한한 범주 값을 갖는 경우, 목표는 연속값을 추정하는 것이 아니라 어느 범주에 속하는지를 결정하는 것이다.
분류 문제 역시 본질적으로는 함수 추정 문제이다. 분류에서는 일반적으로 다음의 조건부 확률 함수를 추정한다.
\[\eta(x) = P(Y = 1 \mid X = x)\]
그리고 실제 분류 규칙은 이 확률 함수에 대한 임계값(threshold)을 통해 정의된다.
\[\hat{Y} = \begin{cases} 1, & \eta(x) \geq c \\ 0, & \eta(x) < c \end{cases}\]
임계값 \(c\)는 흔히 0.5로 설정되지만, 비용 구조나 문제 맥락에 따라 달라질 수 있다.
| 구분 | 목표 | 손실함수 |
|---|---|---|
| 회귀(예측) | \(f(x) \approx \mathbb{E}[Y \mid X = x]\) 직접 근사 | MSE, MAE |
| 분류 | \(f(x) \approx P(Y=1 \mid X=x)\) 근사 후 의사결정 | 로그손실, 크로스엔트로피 |
회귀와 분류의 차이는 출력 공간과 손실함수의 차이이지, “예측 문제라는 본질”이 다른 것은 아니다.
1.4 예측문제는 본질적으로 함수 근사 문제이다
통계적 예측 문제는 겉으로 보면 “주어진 설명변수로 반응변수를 맞히는 문제”처럼 보이지만, 그 본질은 훨씬 일반적인 함수 근사 문제로 이해할 수 있다.
예측문제는 위험 함수를 최소화하는 문제로 정식화된다.
\[\min_{f} \mathbb{E}\left[(Y - f(X))^{2}\right]\]
이때 이론적으로 최적인 함수는 조건부 기댓값 \(f^{*}(X) = \mathbb{E}[Y \mid X]\)이다. 그러나 실제 데이터 분석에서는 오직 유한한 표본 \(\{(x_1, y_1), \ldots, (x_n, y_n)\}\)만이 주어지므로, 실제 목표는 \(f^{*}\) 자체가 아니라 이를 근사하는 \(\hat{f}\)를 구성하는 것이다.
이 관점에서 함수 공간의 선택이 핵심이다.
- 선형회귀: \(\mathcal{F} = \{f(x) = \beta_0 + \beta^\top x\}\) — 유한차원 선형 함수 공간
- 다항회귀: 입력변수를 비선형 변환하여 보다 큰 함수 공간 구성
- 트리 기반 모형: 입력 공간을 분할한 뒤 각 영역에서 상수 또는 단순 함수로 비연속적 함수 근사
- 신경망: 다층 비선형 변환을 통해 매우 큰 함수 공간 형성 — 이론적으로 임의의 연속함수를 근사 가능
함수 공간이 커질수록 근사 오차는 감소하지만 추정 오차는 증가한다. 임의의 점 \(x\)에서의 평균 제곱오차는 다음과 같이 분해된다.
\[\mathbb{E}\left[(Y - \hat{f}(x))^{2}\right] = \underbrace{\text{Bias}^{2}}_{\text{모형 한계}} + \underbrace{\text{Variance}}_{\text{추정 불안정성}} + \underbrace{\sigma^{2}}_{\text{불가피한 잡음}}\]
따라서 예측모형의 설계란 “복잡한 모형을 쓰는 것”이 아니라, 함수 공간의 크기·데이터 양·노이즈 수준·일반화 성능을 함께 고려하여 적절한 함수 근사 수준을 선택하는 과정이다.
1.5 규제: 함수 공간을 줄이는 장치
1.5.1 왜 규제가 필요한가: 고차원과 불안정성
예측변수의 개수 \(p\)가 크거나 \(X^\top X\)가 거의 특이(singular)하면(다중공선성 문제), \(\hat{\beta}\) 분산이 커지고 예측이 흔들린다.
- 훈련오차는 줄어도 테스트오차가 증가하는 과적합 발생
- 규제는 “계수의 크기를 제한”하여 함수 공간을 사실상 축소한다.
1.5.2 제한형 문제와 패널티형 문제의 동치
규제는 다음 두 형태로 동치가 성립한다(라그랑주 관점).
- 제한형 (함수 공간 축소의 직접 표현) \[\min_{\beta} \|y - X\beta\|^{2} \quad \text{s.t.} \quad \|\beta\|_q \leq t\]
- 패널티형 (목적함수에 벌점 추가) \[\min_{\beta} \|y - X\beta\|^{2} + \lambda \|\beta\|_q^{q}\]
즉, 규제는 “좋은 함수”의 정의에 복잡도 비용을 포함시키는 방식이다.
1.5.3 Ridge: L2 규제와 수축(shrinkage)
- 목적함수: \(\min_{\beta} \|y - X\beta\|^{2} + \lambda \|\beta\|_2^{2}\)
- 해: \(\hat{\beta}_\text{ridge} = (X^\top X + \lambda I)^{-1} X^\top y\)
- 해석: \(\lambda I\)를 더해 역행렬 안정화 → 계수가 0에 가깝게 연속적으로 수축(변수 선택은 직접적이지 않음)
- 기하학: 제곱오차 등고선(타원)과 L2 제약(원/구)의 접점
1.5.4 Lasso: L1 규제와 희소성(sparsity)
- 목적함수: \(\min_{\beta} \|y - X\beta\|^{2} + \lambda \|\beta\|_1\)
- 특징: 일부 계수가 정확히 0이 되며 변수 선택 효과 발생
- 기하학: L1 제약은 마름모(고차원에서는 뾰족한 다면체) → 접점이 축에 걸리기 쉬워 0이 자주 발생
1.5.5 Elastic Net: 혼합 규제의 실용적 타협
\[\min_{\beta} \|y - X\beta\|^{2} + \lambda\left(\alpha \|\beta\|_1 + (1-\alpha)\|\beta\|_2^{2}\right)\]
Lasso의 변수 선택 + Ridge의 안정성(상관 높은 변수군에서 그룹화 경향)
규제는 단순히 “벌점 추가”가 아니라, 허용하는 함수 공간을 ’계수의 크기 제약’으로 축소하여 일반화 성능을 높이는 장치로 이해해야 한다.
규제 강도 \(\lambda\)와 같은 하이퍼파라미터는 데이터가 알려주지 않으면 정할 수 없다. 이 선택의 기준이 바로 검증오차이며, 결국 함수 선택은 검증오차 최소화로 구현된다.
1.6 검증오차 관점의 함수 선택
1.6.1 훈련오차 vs 일반화오차
예측모형의 성능을 논할 때 가장 먼저 구분해야 할 개념은 훈련오차(training error)와 일반화오차(generalization error)이다.
훈련오차: 학습에 사용된 데이터에 대해 계산된 경험적 오차
\[\text{TrainErr}(f) = \frac{1}{n}\sum_{i=1}^{n}(y_i - f(x_i))^{2}\]
일반화오차(테스트오차): 모집단 분포에서의 평균 제곱오차 — 직접 계산 불가, 추정의 대상
\[\text{TestErr}(f) = \mathbb{E}\left[(Y - f(X))^{2}\right]\]
함수 공간 \(\mathcal{F}\)가 커질수록 훈련오차는 단조롭게 감소한다. 충분히 유연한 함수라면 훈련 데이터의 모든 점을 거의 완벽하게 통과하도록 만들 수 있다. 그러나 이런 복잡한 모형은 데이터에 포함된 우연한 잡음까지 함께 학습하여 새로운 데이터에서 오히려 성능이 나빠진다.
테스트오차는 U자 형태: 복잡도가 너무 작으면 편향이 크고, 너무 크면 분산이 커져 과적합이 발생한다.
\[\mathbb{E}\left[(Y - \hat{f}(X))^{2}\right] = \underbrace{\text{Bias}^{2}}_{\text{모형의 구조적 한계}} + \underbrace{\text{Variance}}_{\text{표본에 대한 민감도}} + \underbrace{\sigma^{2}}_{\text{불가피한 오차}}\]
결론: 좋은 예측모형이란 훈련 데이터에 잘 맞는 모형이 아니라, 보이지 않는 데이터에서도 안정적으로 작동하는 모형이다.
1.6.2 검증오차는 왜 테스트오차의 대리 변수인가
예측모형의 궁극적 목표인 \(\text{TestErr}(f)\)는 모집단 분포를 알지 못하는 현실에서 직접 계산할 수 없다. 이러한 상황에서 등장하는 개념이 검증오차이다.
\[\text{ValErr}(f) = \frac{1}{m}\sum_{j=1}^{m}(y_j^{(v)} - f(x_j^{(v)}))^{2}\]
여기서 \(\{(x_j^{(v)}, y_j^{(v)})\}\)는 훈련 과정에서 사용하지 않은 검증 데이터이다.
검증 데이터가 훈련 데이터와 동일한 모집단 분포로부터 독립적으로 추출된다면:
\[\mathbb{E}[\text{ValErr}(f)] = \text{TestErr}(f)\]
즉, 검증오차는 불편추정량으로서 테스트오차를 추정한다.
이 조건이 깨지는 두 경우: 1. 검증 데이터가 훈련 데이터와 독립적이지 않은 경우 2. 검증 데이터가 학습 과정에 사용된 경우 (→ 데이터 누수)
훈련오차는 항상 훈련 데이터에 대해 낙관적으로 편향되어 있으며, 함수 공간이 커질수록 단조 감소한다. 반면 검증오차는 새로운 데이터에 대한 성능을 반영하므로, 과적합이 시작되는 지점을 감지할 수 있는 지표가 된다.
1.6.3 교차검증은 왜 검증오차의 분산을 줄이는가
단일 검증셋을 사용하는 경우 검증오차 값은 우연한 표본 분할에 크게 의존할 수 있다. \(K\)-겹 교차검증에서는 데이터를 \(K\)개의 부분집합으로 나누고, 각 부분집합을 한 번씩 검증셋으로 사용한다.
\[\text{CV}_K(f) = \frac{1}{K}\sum_{k=1}^{K}\text{Err}^{(k)}(f)\]
여러 검증셋 평균화: 각 \(\text{Err}^{(k)}(f)\)의 분산이 평균화 효과로 감소 \[\text{Var}(\text{CV}_K(f)) \approx \frac{1}{K^2}\sum_{k=1}^{K}\text{Var}(\text{Err}^{(k)}(f))\]
데이터 활용의 균형: 모든 관측치가 학습과 검증에 번갈아 사용 → 특정 관측치의 영향력 과도화 방지
다만 \(K\)가 너무 작으면 분산 감소 효과가 제한적이고, 너무 크면 계산 비용이 증가하며 LOOCV(\(K=n\))의 경우 분산이 오히려 커질 수 있다.
1.6.4 검증오차 최소화가 최적 예측을 보장하지 않는 이유
검증오차를 최소화했다고 해서, 그 모형이 반드시 최적의 예측 성능을 가진다고 보장할 수는 없다. 검증오차는 테스트오차의 추정값이지, 그 자체가 참값은 아니다.
후보 모형 집합 \(\mathcal{F} = \{f_1, \ldots, f_M\}\) 중에서 \(\hat{f} = \arg\min_{f \in \mathcal{F}}\text{ValErr}(f)\)를 선택하는 과정에서:
\[\mathbb{E}\left[\min_{f \in \mathcal{F}}\text{ValErr}(f)\right] < \min_{f \in \mathcal{F}}\text{TestErr}(f)\]
가 일반적으로 성립한다. 후보 모형의 수 \(M\)이 많아질수록 이 편향은 더 심각해진다.
검증 데이터를 사용해 모형을 선택한 뒤, 동일한 검증 데이터로 성능을 평가하면 그 평가는 선택 과정의 영향을 받은 낙관적 편향 값이 된다.
검증오차가 “평가 지표”가 아니라 “선택 기준”으로 사용되었기 때문이다.
1.6.5 모형 선택 편향과 중첩 교차검증
모형 선택과 성능 평가를 서로 다른 데이터 분할에서 수행한다.
바깥쪽 교차검증(outer loop): 테스트셋으로만 사용 — 최종 성능 평가용
안쪽 교차검증(inner loop): 학습 데이터를 재분할 → 하이퍼파라미터 선택
절차: 1. 바깥쪽 분할에서 하나의 폴드를 테스트셋으로 분리 2. 나머지 데이터에 대해 안쪽 교차검증을 수행하여 최적 모형 선택 3. 선택된 모형을 바깥쪽 테스트셋에 적용하여 예측오차 계산 4. 이 과정을 모든 바깥쪽 폴드에 대해 반복하고 테스트오차를 평균
바깥쪽에서 계산된 오차는 \(\mathbb{E}[\text{TestErr}(\hat{f})]\)를 직접 추정하므로, 모형 선택 편향을 구조적으로 차단한다.
다만 계산 비용이 크다는 단점이 있으며, 데이터가 충분히 크다면 독립 테스트셋을 별도로 확보하는 방식이 대안이 될 수 있다.
결론적으로, “교차검증을 했다”는 사실보다 교차검증이 어떤 역할로 사용되었는지가 훨씬 더 중요하다.
1.7 예측모형: 통계적 사고와 ML 사고
1.7.1 예측과 추론의 목적 차이: p-value는 여기서 중요하지 않다
| 구분 | 핵심 질문 | 평가 기준 |
|---|---|---|
| 통계적 추론 | “계수 \(\beta_j\)는 0과 유의미하게 다른가?” | p-value, 신뢰구간 |
| 예측 | “이 모형이 새로운 데이터에 얼마나 정확한가?” | 검증오차, 테스트오차 |
예측 문제에서 관심의 대상은 개별 계수의 해석이나 통계적 유의성이 아니라, \(\hat{f}(X) \approx \mathbb{E}[Y \mid X]\)라는 함수 근사가 얼마나 잘 이루어졌는가이다.
p-value는 예측 성능을 직접적으로 평가하는 정보가 아니다.
- 어떤 변수의 계수가 통계적으로 유의하지 않더라도, 그 변수가 포함된 모형이 더 나은 예측 성능을 보일 수 있다.
- 반대로 매우 작은 p-value를 가진 변수만으로 구성된 모형이 반드시 좋은 예측모형이 되는 것도 아니다.
또한 p-value는 모형이 올바르게 지정되었다는 가정(선형성, 등분산성, 독립성, 정규성) 하에서만 해석 가능하다. 비선형 모형, 트리, 신경망 같이 p-value 자체가 정의되지 않는 모형들도 뛰어난 예측 성능을 가질 수 있다.
예측 문제에서 변수 선택을 p-value에 의존할 경우: - 훈련 데이터에 대한 통계적 유의성이 기준이 되므로 일반화 성능과 직접적 연관이 없다. - 앞서 논의한 모형 선택 편향을 더욱 악화시킬 수 있다.
예측 문제의 모형 선택 기준: p-value가 아니라 검증오차·교차검증 오차·테스트오차
1.7.2 통계적 사고에서 ML 사고로의 전환
| 항목 | 통계적 사고 | ML 사고 |
|---|---|---|
| 출발점 | 모형 가정(선형성, 정규성 등) | 예측 성능 |
| 관심 대상 | 모수 \(\beta\) 추론 | 함수 \(\hat{f}(X)\)의 일반화 성능 |
| 핵심 도구 | 우도 함수, 검정통계량, p-value | 손실함수 \(L(Y, f(X))\) 최소화 |
| 모형 복잡도 | 단순 모형 선호 (해석 용이성) | 복잡도를 규제+검증으로 통제 |
| 데이터 역할 | 불확실성을 줄이기 위한 표본 | 모형 성능을 결정하는 핵심 자원 |
통계적 사고: 모형 가정 → 모수 추론 → 해석과 검정
ML 사고: 손실함수 정의 → 함수 공간 선택 → 검증 기반 성능 평가
이 전환은 통계를 부정하는 것이 아니라, 통계적 사고를 더 넓은 예측 프레임 안으로 확장하는 것이다. 규제·교차검증·편향-분산 트레이드오프와 같은 핵심 개념은 양쪽을 연결하는 공통 언어이다.
“이 모형이 의미 있는가?”가 아니라 “이 모형이 미래에도 잘 작동하는가?”
이 질문에 답하기 위해서는 통계적 추론의 도구를 넘어, 머신러닝적 검증과 선택의 논리를 함께 받아들여야 한다.