머신러닝·딥러닝 강의노트

저자

권세혁

1 강의노트 소개

본 강의노트는 머신러닝(Machine Learning)과 딥러닝(Deep Learning)의 핵심 개념부터 실제 예측·분류 문제 적용까지 체계적으로 학습할 수 있도록 구성한 자료이다.

전통적 통계모형과 현대 머신러닝 알고리즘을 함께 비교하며 학습하고, 차원축소·군집화·예측·분류·딥러닝 사례분석까지 단계적으로 다룬다.

강의노트 대상 독자

대상	활용 방향
머신러닝·AI 입문자	개념 → 알고리즘 → 사례 순서로 체계적 학습
데이터사이언스 전공 학생	통계 기반 ML 이론과 파이썬 실습 병행
통계 기반 AI 연구자	전통 통계와 머신러닝의 연결 관계 이해
실무 데이터분석가	예측·분류 모형 선택과 성능 평가 역량 강화
딥러닝 프로젝트 수행자	이론부터 사례분석까지 단계적 적용

2 머신·딥러닝 개념

통계적 사고와 머신러닝 원리를 연결하는 기초 학습 단계

📚 머신·딥러닝 개념 10개 노트

노트	핵심 내용
📄 머신러닝과 통계적사고	인공지능·ML·DL 관계, 통계적 사고와 ML의 연결, 데이터 기반 학습 패러다임
📄 MLDL 개념 1	모델(Model) 개념, 학습(Training), 추론(Inference), 일반화(Generalization)
📄 MLDL 개념 2	과적합(Overfitting), 편향-분산 트레이드오프, 하이퍼파라미터, 교차검증
📄 지도학습	입력과 출력, 회귀와 분류, 학습 데이터 구조, 예측모형 구축
📄 비지도학습	레이블 없는 데이터, 군집화, 차원축소, 패턴 탐색
📄 MLDL 평가	정확도·정밀도·재현율·RMSE·MAE·ROC-AUC, 모형 성능 지표
📄 불확실성	확률적 예측, 예측구간, 베이지안 관점, 불확실성 정량화
📄 MLDL 기초	데이터 전처리, Feature Engineering, 학습 파이프라인, 모델 선택
📄 딥러닝 기초	인공신경망(ANN), 활성화함수, 역전파(Backpropagation), Optimizer
📄 딥러닝 (과적합·불확실성)	과적합 원인·진단, Dropout·L2 정규화, 조기종료, 불확실성 정량화

3 차원축소

고차원 데이터를 효율적으로 표현하고 해석하는 방법

📚 차원축소 4개 노트

노트	핵심 내용
📄 차원축소 개념\|필요성	차원의 저주, 정보 압축, 시각화 필요성, 계산 효율성
📄 차원축소 통계적방법	PCA, 요인분석, 특잇값분해(SVD), 선형 차원축소
📄 차원축소 비지도학습	t-SNE, UMAP, Autoencoder, 비선형 임베딩
📄 차원축소 사례분석	이미지 데이터 시각화, 고객 데이터 압축, 텍스트 임베딩 사례

4 군집·비지도학습

유사한 데이터 구조를 탐색하는 비지도학습 방법

📚 군집·비지도학습 3개 노트

노트	핵심 내용
📄 군집·비지도학습 개념	군집화 개념, 거리 기반 접근, 유사도 개념, 패턴 발견
📄 군집·비지도학습 방법론	K-means, 계층적 군집화, DBSCAN, Gaussian Mixture Model
📄 군집·비지도학습 사례분석	고객 세분화, 이상치 탐지, 추천시스템, 텍스트 군집화

5 머신·딥러닝 예측방법

연속형 목표변수를 예측하는 다양한 분석 방법

📚 예측방법 7개 노트

노트	핵심 내용
📄 예측문제 개요	예측문제 정의, 회귀 기반 접근, 성능평가 기준, 예측오차 분석
📄 [전통] 회귀분석	선형회귀, 다중회귀, 최소제곱법, 회귀계수 해석, 분산분석
📄 [전통] 규제회귀	Ridge·Lasso·Elastic Net, 과적합 방지, 변수 선택
📄 [전통] 차원축소	PCR, PLS, 고차원 회귀, FAMD 혼합형
📄 [머신러닝] 비선형회귀	다항회귀, 스플라인, 스무딩 스플라인, GAM
📄 [머신러닝] 트리기반	Decision Tree, Random Forest, Gradient Boosting, BART
📄 딥러닝회귀	DNN 회귀모형, 손실함수, Quantile 예측, 불확실성 예측

6 머신·딥러닝 분류문제

범주형 목표변수를 분류하는 다양한 기법

📚 분류문제 10개 노트

노트	핵심 내용
📄 분류문제: 정의	분류문제 개념, 이진·다중·멀티라벨 분류, 조건부 확률 추정
📄 예측분류-ML 트리기반	CART, Random Forest, Boosting 기반 분류, 중요변수 해석
📄 머신러닝 kNN SVM 이론	k-NN 거리 기반 분류, SVM 마진 최대화, 커널 트릭
📄 분류모델 평가	혼동행렬, Precision·Recall·F1·ROC-AUC, 불균형 대응
📄 머신러닝 이진형 사례	유방암 진단·신용카드 사기탐지, kNN·SVM 이진분류 사례
📄 머신러닝 k≥3 사례	펭귄 종 분류, 다중분류 kNN·SVM·트리 비교
📄 딥러닝 분류 이론	출력 설계, 손실함수, 정규화, Calibration, 임계값
📄 딥러닝 분류 (희소성공)사례	불균형 데이터, 가중 BCE, Focal Loss, 오토인코더 이상탐지
📄 딥러닝 분류 (이미지)사례	CIFAR-10, Baseline CNN vs Improved CNN, 성능 비교
📄 딥러닝 분류 (텍스트)사례	IMDB 감성분석, AvgEmbed·TextCNN·BiLSTM·Transformer 비교

7 학습 로드맵

단계별 학습 순서

① 머신·딥러닝 개념 (10개)
   통계적 사고 → ML 개념 → 지도·비지도 학습 → 평가 → 불확실성 → 딥러닝 기초

② 차원축소 (4개)
   개념·필요성 → 통계적방법(PCA/SVD) → 비지도학습(t-SNE/UMAP) → 사례분석

③ 군집·비지도학습 (3개)
   개념 → 방법론(K-means/DBSCAN/GMM) → 사례분석

④ 예측방법 (7개)
   예측 개요 → 회귀분석 → 규제회귀 → 차원축소 → 비선형회귀 → 트리기반 → 딥러닝회귀

⑤ 분류문제 (10개)
   분류 정의 → 트리기반 → kNN·SVM → 모델 평가 → ML 사례 → 딥러닝 이론·사례

선수 학습: 기초통계·회귀분석·다변량분석 강의노트로 통계 기반을 먼저 다지는 것을 권장

8 분석 도구

활용 언어 및 패키지

언어	주요 패키지	활용 분야
Python	`pandas`, `numpy`, `scipy`	데이터 처리·기초 통계
Python	`scikit-learn`	전통 ML 알고리즘
Python	`tensorflow`, `keras`	딥러닝 모형 구현
Python	`matplotlib`, `seaborn`, `plotly`	시각화
Python	`shap`, `lime`	모형 해석 (XAI)