평가 - 4 :: 데이터분석가가 가는 가장 안정적인 길

평가 - 4

Python Machine Learning/평가 2020. 7. 30. 18:43

지금까지 설명한 평가지표를 이용하여 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립해보겠습니다.

피마 인디언 당뇨병 데이터 세트는 다음 피처로 구성되어 있습니다.

Pregnancies: 임신 횟수
Glucose: 포도당 부하 검사 수치
BloodPressure: 혈압(mm Hg)
SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)
Insulin: 혈청 인슐린(mu U/ml)
BMI: 체질량지수(체중(kg)/(키(m))^2)
DiabetesPedigreeFunction: 당뇨 내력 가중치 값
Age: 나이
Outcome: 클래스 결정 값(0또는 1)

--> 전체 768개의 데이터 중에서 Negative 값 0이 500개, Positive 값 1이 268개

--> Null값은 없으며 피처의 타입은 모두 숫자형. 별도의 인코딩은 필요하지 않음.

--> 이전에 사용했던 함수인 get_clf_eval( ), get_eval_by_threshold( ), precision_recall_curve_plot( )을 이용해 성능 평가 지표 출력하고 재현율 곡선을 시각화.

==> 예측 정확도, 재현율이 측정되었으며, 전체 데이터 중 65%가 Negative이므로 정확도보다는 재현율 성능에 초점을 맞추겠습니다. 먼저 정밀도 재현율 곡선을 보고 임계값별 변화를 확인하기 위해 precision_recall_curve_plot( ) 함수를 이용하겠습니다.