[AI/ML] Classification과 Regression의 차이
·
📖 Fundamentals/AI & ML
Classification(분류)과 Regression(회귀) 알고리즘은 supervised learning(지도 학습) 알고리즘으로, 두 알고리즘 모두 머신러닝의 예측에 사용되며 레이블이 지정된 데이터셋과 함께 사용된다. Classification과 Regression의 주된 차이는 classification의 경우 남성 vs 여성, 참 vs 거짓 등의 discrete한 value를 예측/분류하는데 사용되고, regression은 가격, 급여, 나이 등과 같은 continuous한 value를 예측하는데 사용된다는 점이다. Classification데이터셋을 다양한 파라미터를 기반으로 클래스를 나누는데 도움이 되는 함수를 찾는 프로세스입력 x를 discrete한 출력 y에 매핑하는 매핑 함수를 찾는 것..
[AI/ML] Classification 성능 평가 방법
·
📖 Fundamentals/AI & ML
Classification의 성능 평가 방법인 TP, TN, FP, FN, Recall, Precision, ROC,... 등을 정리 Binary classification 성능 평가True Positive(TP) : P → P 로 예측 (정답)True Negative(TN) : N → N 으로 예측 (정답)False Positive(FP) : N → P 로 예측 (오답)False Negative(FN) : P → N 으로 예측 (오답)  Accurarcy : 모든 입력 데이터 중, 잘 분류한 데이터의 비율Recall : Positive 중에 Positive라고 예측한 비율. (P→P)와 (P→N) 중 (P→P)의 비율Precision : Positive 라고 예측한 것 중 실제 positive 인 비율..
[AI/ML] Bias와 Variance : 머신러닝 모델 평가 방법
·
📖 Fundamentals/AI & ML
Bias : 모델의 출력으로 얻은 예측값과 정답(Ground Truth) 와의 차이의 평균Variance : 다양한 데이터 셋에서 예측값이 얼마나 변화할 수 있는지에 대한 값 머신러닝에서 bias와 variance는 모델이 얼마나 잘 학습되었는지 확인하는 척도 중 하나로, 가장 좋은 경우는 bias와 variance가 모두 낮은 경우이다. (아래 그림 참고)그런데 위의 내용은 너무 당연한 내용이자 결과론적인 이야기이고, bias와 variance는 모델 학습과 연관지어 생각할 필요가 있다. 학습이 덜된 underfitting 구간에는 학습데이터 셋의 예측값도 많이 틀리기 때문에 bias가 높은 상태이고, 적절한 학습 종료 지점을 지난 구간에서는 학습 데이터셋과 모델의 loss를 최소화 하기 위해 over..