머신러닝·딥러닝 강의노트
저자
권세혁
1 강의노트 소개
본 강의노트는 머신러닝(Machine Learning)과 딥러닝(Deep Learning)의 핵심 개념부터 실제 예측·분류 문제 적용까지 체계적으로 학습할 수 있도록 구성한 자료이다.
전통적 통계모형과 현대 머신러닝 알고리즘을 함께 비교하며 학습하고, 차원축소·군집화·예측·분류·딥러닝 사례분석까지 단계적으로 다룬다.
강의노트 대상 독자
| 대상 | 활용 방향 |
|---|---|
| 머신러닝·AI 입문자 | 개념 → 알고리즘 → 사례 순서로 체계적 학습 |
| 데이터사이언스 전공 학생 | 통계 기반 ML 이론과 파이썬 실습 병행 |
| 통계 기반 AI 연구자 | 전통 통계와 머신러닝의 연결 관계 이해 |
| 실무 데이터분석가 | 예측·분류 모형 선택과 성능 평가 역량 강화 |
| 딥러닝 프로젝트 수행자 | 이론부터 사례분석까지 단계적 적용 |
2 머신·딥러닝 개념
통계적 사고와 머신러닝 원리를 연결하는 기초 학습 단계
📚 머신·딥러닝 개념 10개 노트
| 노트 | 핵심 내용 |
|---|---|
| 📄 머신러닝과 통계적사고 | 인공지능·ML·DL 관계, 통계적 사고와 ML의 연결, 데이터 기반 학습 패러다임 |
| 📄 MLDL 개념 1 | 모델(Model) 개념, 학습(Training), 추론(Inference), 일반화(Generalization) |
| 📄 MLDL 개념 2 | 과적합(Overfitting), 편향-분산 트레이드오프, 하이퍼파라미터, 교차검증 |
| 📄 지도학습 | 입력과 출력, 회귀와 분류, 학습 데이터 구조, 예측모형 구축 |
| 📄 비지도학습 | 레이블 없는 데이터, 군집화, 차원축소, 패턴 탐색 |
| 📄 MLDL 평가 | 정확도·정밀도·재현율·RMSE·MAE·ROC-AUC, 모형 성능 지표 |
| 📄 불확실성 | 확률적 예측, 예측구간, 베이지안 관점, 불확실성 정량화 |
| 📄 MLDL 기초 | 데이터 전처리, Feature Engineering, 학습 파이프라인, 모델 선택 |
| 📄 딥러닝 기초 | 인공신경망(ANN), 활성화함수, 역전파(Backpropagation), Optimizer |
| 📄 딥러닝 (과적합·불확실성) | 과적합 원인·진단, Dropout·L2 정규화, 조기종료, 불확실성 정량화 |
3 차원축소
고차원 데이터를 효율적으로 표현하고 해석하는 방법
📚 차원축소 4개 노트
| 노트 | 핵심 내용 |
|---|---|
| 📄 차원축소 개념|필요성 | 차원의 저주, 정보 압축, 시각화 필요성, 계산 효율성 |
| 📄 차원축소 통계적방법 | PCA, 요인분석, 특잇값분해(SVD), 선형 차원축소 |
| 📄 차원축소 비지도학습 | t-SNE, UMAP, Autoencoder, 비선형 임베딩 |
| 📄 차원축소 사례분석 | 이미지 데이터 시각화, 고객 데이터 압축, 텍스트 임베딩 사례 |
4 군집·비지도학습
유사한 데이터 구조를 탐색하는 비지도학습 방법
📚 군집·비지도학습 3개 노트
| 노트 | 핵심 내용 |
|---|---|
| 📄 군집·비지도학습 개념 | 군집화 개념, 거리 기반 접근, 유사도 개념, 패턴 발견 |
| 📄 군집·비지도학습 방법론 | K-means, 계층적 군집화, DBSCAN, Gaussian Mixture Model |
| 📄 군집·비지도학습 사례분석 | 고객 세분화, 이상치 탐지, 추천시스템, 텍스트 군집화 |
5 머신·딥러닝 예측방법
연속형 목표변수를 예측하는 다양한 분석 방법
📚 예측방법 7개 노트
| 노트 | 핵심 내용 |
|---|---|
| 📄 예측문제 개요 | 예측문제 정의, 회귀 기반 접근, 성능평가 기준, 예측오차 분석 |
| 📄 [전통] 회귀분석 | 선형회귀, 다중회귀, 최소제곱법, 회귀계수 해석, 분산분석 |
| 📄 [전통] 규제회귀 | Ridge·Lasso·Elastic Net, 과적합 방지, 변수 선택 |
| 📄 [전통] 차원축소 | PCR, PLS, 고차원 회귀, FAMD 혼합형 |
| 📄 [머신러닝] 비선형회귀 | 다항회귀, 스플라인, 스무딩 스플라인, GAM |
| 📄 [머신러닝] 트리기반 | Decision Tree, Random Forest, Gradient Boosting, BART |
| 📄 딥러닝회귀 | DNN 회귀모형, 손실함수, Quantile 예측, 불확실성 예측 |
6 머신·딥러닝 분류문제
범주형 목표변수를 분류하는 다양한 기법
📚 분류문제 10개 노트
| 노트 | 핵심 내용 |
|---|---|
| 📄 분류문제: 정의 | 분류문제 개념, 이진·다중·멀티라벨 분류, 조건부 확률 추정 |
| 📄 예측분류-ML 트리기반 | CART, Random Forest, Boosting 기반 분류, 중요변수 해석 |
| 📄 머신러닝 kNN SVM 이론 | k-NN 거리 기반 분류, SVM 마진 최대화, 커널 트릭 |
| 📄 분류모델 평가 | 혼동행렬, Precision·Recall·F1·ROC-AUC, 불균형 대응 |
| 📄 머신러닝 이진형 사례 | 유방암 진단·신용카드 사기탐지, kNN·SVM 이진분류 사례 |
| 📄 머신러닝 k≥3 사례 | 펭귄 종 분류, 다중분류 kNN·SVM·트리 비교 |
| 📄 딥러닝 분류 이론 | 출력 설계, 손실함수, 정규화, Calibration, 임계값 |
| 📄 딥러닝 분류 (희소성공)사례 | 불균형 데이터, 가중 BCE, Focal Loss, 오토인코더 이상탐지 |
| 📄 딥러닝 분류 (이미지)사례 | CIFAR-10, Baseline CNN vs Improved CNN, 성능 비교 |
| 📄 딥러닝 분류 (텍스트)사례 | IMDB 감성분석, AvgEmbed·TextCNN·BiLSTM·Transformer 비교 |
7 학습 로드맵
단계별 학습 순서
① 머신·딥러닝 개념 (10개)
통계적 사고 → ML 개념 → 지도·비지도 학습 → 평가 → 불확실성 → 딥러닝 기초
② 차원축소 (4개)
개념·필요성 → 통계적방법(PCA/SVD) → 비지도학습(t-SNE/UMAP) → 사례분석
③ 군집·비지도학습 (3개)
개념 → 방법론(K-means/DBSCAN/GMM) → 사례분석
④ 예측방법 (7개)
예측 개요 → 회귀분석 → 규제회귀 → 차원축소 → 비선형회귀 → 트리기반 → 딥러닝회귀
⑤ 분류문제 (10개)
분류 정의 → 트리기반 → kNN·SVM → 모델 평가 → ML 사례 → 딥러닝 이론·사례
선수 학습: 기초통계·회귀분석·다변량분석 강의노트로 통계 기반을 먼저 다지는 것을 권장
8 분석 도구
활용 언어 및 패키지
| 언어 | 주요 패키지 | 활용 분야 |
|---|---|---|
| Python | pandas, numpy, scipy |
데이터 처리·기초 통계 |
| Python | scikit-learn |
전통 ML 알고리즘 |
| Python | tensorflow, keras |
딥러닝 모형 구현 |
| Python | matplotlib, seaborn, plotly |
시각화 |
| Python | shap, lime |
모형 해석 (XAI) |