Python Machine Learning/평가
-
평가 - 5Python Machine Learning/평가 2020. 7. 30. 18:49
분류에 사용되는 성능 평가 지표로는 정확도, 오차 행렬, 정밀도, 재현율, F1 스코어, ROC-AUC가 있으며 특히 이진 분류의 레이블 값이 불균형하게 분포될 경우에는 정확도만으로는 머신러닝 모델의 예측 성능을 평가할 수 없습니다. 오차 행렬은 Negative와 Positive값을 가지는 실제 클래스 값과 예측 클래 값이 True와 False에 따라 TN, FP, FN, TP로 매핑되는 4분면 행렬을 기반으로 예측 성능을 평가합니다. 정밀도와 재현율은 Positive 데이터 세트의 예측 성능에 초점을 맞춘 평가지표로 분류하려는 업무의 특성상 특별히 강조돼야 할 경우 분류의 결정 임계값을 조정해 정밀도, 재현율의 수치를 높이는 방법이 있습니다. F1스코어는 정밀도와 재현율을 결합한 평가 지표로서, 정밀도..
-
평가 - 4Python Machine Learning/평가 2020. 7. 30. 18:43
지금까지 설명한 평가지표를 이용하여 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립해보겠습니다. 피마 인디언 당뇨병 데이터 세트는 다음 피처로 구성되어 있습니다. Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압(mm Hg) SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm) Insulin: 혈청 인슐린(mu U/ml) BMI: 체질량지수(체중(kg)/(키(m))^2) DiabetesPedigreeFunction: 당뇨 내력 가중치 값 Age: 나이 Outcome: 클래스 결정 값(0또는 1) --> 전체 768개의 데이터 중에서 Negative 값 0이 500개, Positive 값 1이 ..
-
평가 - 3Python Machine Learning/평가 2020. 7. 30. 17:30
1. F1 스코어 2. ROC 곡선과 AUC 1. F1 스코어 - F1 스코어는 정밀도와 재현율을 결합한 지표로 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가집니다. - F1 = 2 / ( 1 / 재현율 ) + ( 1 / 정확도 ) = 2 * ( 정밀도 * 재현율 ) / ( 정밀도 + 재현율 ) - 사이킷런에서는 F1 스코어를 구하기 위해 f1_socre( )라는 API를 제공합니다. 다음 예제는 타이타닉 생존자 예측에서 임계값을 변화시키면서 F1스코어를 포함한 평가 지표를 구하는 예제입니다. --> get_clf_eval( ) 함수에 F1스코어 구하는 로직 추가 --> get_eval_by_threshold( ) 함수를 이용해 임계값 0.4~ 0.6별로 정확도..
-
평가 - 2Python Machine Learning/평가 2020. 7. 29. 17:44
1. 정확도( Accuracy ) 2. 오차행렬( Confusion matrix ) 3. 정밀도( Precision ) 4. 재현율 ( Recall ) 정확도( Accuracy ) - 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표로 직관적으로 모델 예측 성능을 나타내는 평가지표. - 정확도( Accuracy ) = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 다음은 사이킷런 BaseEstimator클래스를 상속받아 학습을 하지 않고, 단순히 성별에 따라 생존자 예측하는 예제입니다. --> fit( ) 메서드는 아무것도 학습하지 않음. --> predict( ) 메서드는 sex 피처가 1이면 0, 그렇지 않으면 1로 예측. --> 데이터 재로딩, 데이터 가공, 학습 데이터/테스..
-
평가 - 1Python Machine Learning/평가 2020. 7. 29. 16:40
머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가의 프로세스로 구성됩니다. 타이타닉 생존자 예제에서는 모델 예측 성능의 평가를 위해 정확도를 이용했습니다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있으며 성능 평가 지표는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 분류는 실제 경과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 상황에 맞는 성능 평가 지표를 사용하여 잘못된 평가 결과에 빠지지 않도록 합니다. 분류의 성능 평가 지표로는 다음과 같습니다. 정확도( Accuracy ) 오차행렬( Confusion Matrix ) 정밀도( Precision ) 재현율( Recall ) F1스코어 ROC AUC 회귀는 실제값과 예..