MLOps

모델 분석 방법

백악기작은펭귄 2022. 1. 26.
반응형

모델 분석 방법

파이프라인 내에서 데이터를 검증하고 전처리하여 모델을 훈련시키고 나면 모델을 당장 프로덕션에 투입할 수도 있다. 하지만, 그전에 모델의 성능을 심층적으로 분석하고 기존 모델의 성능을 개선할 수 있는지 검증하는 단계를 추가하는 것을 권장한다.

 

머신러닝 파이프라인의 일부로서의 모델 분석 및 검증

 

모델의 학습에서도 모델 검증을 수행하긴 하지만, 보통 accuracy라는 단일 metric에 대해서만 수행되는 것이 일반적이다. 하지만 실제 프로덕션 환경에서 모델이 적절한 기능을 할 수 있을지 검증하는 데에는 다소 부족함이 있다.

 

또한 전체 테스트셋에 걸친 성능을 하나의 지표로 일반화하는 것은 위험할 수 있다. 실제 프로덕션 환경에서는 하나의 데이터에 하나의 아웃풋이 매칭 되는 것이 일반적이고, 이는 매번 다른 성능 지표 값을 보일 것이다. 그런데 각 샘플 간 성능이 확연히 차이가 난다면, 그것은 제대로 된 모델이라고 할 수 없을 것이다. 단순히 성능이 좋고 안 좋고를 떠나, 비즈니스상에서의 이러한 오류는 상업적인 손해 또는 사용자에게 피해를 입힐 수 있다. 특히, 일부 엣지 케이스나 코너 케이스는 치명적인 결함으로 이어질 수도 있다(ex-특정 조명 환경에서는 자율주행 자동차의 인식률이 급격히 감소하여 사고를 유발할 수 있다).

 

그렇기 때문에 이러한 분석 단계에서는 데이터셋의 여러 조각에 걸쳐 지표를 모니터링할 수 있어야 한다. 배포 전, 배포 후, 운영 중 각각의 타임라인에 따른 성능이 모니터링되어야 하며, 시간이 지남에 따라 성능이 감소하지는 않는지 또한 모니터링되어야 한다.

 

또한 새 모델이 배포될 경우, 기존의 모델보다 확연히 좋은 성능을 보이는지를 검증해야 할 필요가 있다. 새 모델의 성능이 어떤 식으로든 감소한다면 당연히 배포가 필요하지 않으며, 성능의 향상 정도가 새로운 모델 배포에 있어 발생하는 오버헤드보다 작다면 이를 보류하기도 한다.

 

모델 분석 프로세스는 성능 지표 선택에서부터 시작된다. 단일 지표는 중요 세부 정보를 숨길 수 있으므로 직면한 문제와 관련된 다중 지표를 선택하는 것이 좋다. 이러한 선택에는 도메인 지식이 사용되기도 하고, Task-specific 하게 선택되기도 한다.


분류(Classification) 성능 지표

대다수의 분류 성능 지표를 계산하기 위해서는 오차 행렬(Confusion Matrix)이 선행되어야 한다.

  • True-Positive / True-Negative
    샘플의 정답 레이블과 분류 모델의 예측 레이블이 같은 경우이다. 전체 샘플 중 True-Positive / True-Negative 비율이 정확도를 나타낸다.

  • False-Positive / False-Negative
    샘플의 정답 레이블과 분류 모델의 예측 레이블이 다른 경우이다. 즉, 잘못된 예측을 수행한 경우로, 1-정확도라고 할 수 있다.

이러한 오차 행렬의 값을 이용하여 다음과 같은 성능 지표가 계산된다.

  • 정확도(accuracy)
    (TP+TN)/총 샘플 수로 정의된다. 양성 클래스와 음성 클래스의 비율이 균등한 데이터셋에서 사용하기에는 적합하지만, 균형이 맞지 않는 경우 신뢰도가 낮을 수 있다.
  • 정밀도(precision)
    TP/(TP+FP)로 정의된다. 양성 예측도라고도 불린다. 양성으로 예측된 수 대비 올바르게 예측된 수이므로 음성 레이블보다는 양성 레이블의 정확도에 초점이 맞춰져 있어, 음성 샘플을 양성 샘플로 예측하면 업무 상 큰 차질이 발생할 것으로 우려되는 경우(ex-금융사기 예측) 중요하게 확인하는 지표이다.

  • 재현율(recall)
    TP/(TP+FN)으로 정의된다. 민감도 혹은 참 양성 비율(TPR)이라고도 불린다. 분류 모델이 정확하게 예측한 실제 정답(ground truth)이 양성인 예제의 비율로, 양성을 음성으로 예측할 경우 업무 상 큰 차질이 발생할 것으로 우려되는 경우(ex-질병 여부 예측) 중요하게 확인하는 지표이다.

  • Fall-out(False Positive Rate, FPR)
    FP/(TN+FP)로 정의된다. 실제 음성인 샘플을 양성으로 잘못 판단한 비율로, 재현율(TPR)과 상호보완적 관계를 가진다.
  • F1 Score
    정밀도와 재현율의 조화 평균으로, 데이터 레이블이 불균형할 때 신뢰도가 높은 지표이다.

  • AUC(Area Under the Curve)
    'Curve'란 수신자 조작 특성(Reciever Operating Characteristic, ROC)으로, 모든 분류 임계값에서 계산된다. FPR에 대한 TPR 그래프를 의미하며, 이 그래프의 FPR에 대한 면적이 AUC이다.

회귀 지표

회귀 분석 문제에서 모델은 실수 형태로 값을 예측하며, 이를 실제값과 비교하여 오차를 확인한다.

  • 평균 절대 오차(Mean Absolute Error, MAE)
    예측값과 실제값 사이 오차 절댓값의 산술평균으로 정의된다. 즉, MAE는 모델이 생성하는 평균 오차이다.

  • 평균 절대 백분율 오차(Mean Absolute Percentage Error, MAPE)
    오차의 실제값 대비 비율의 절댓값을 산술평균 낸 후 백분위로 나타낸 것으로, 모델이 체계적인 오차를 범할 때 유용하다.

  • 평균 제곱 오차(Mean Squared Error, MSE)
    오차 제곱의 산술평균으로, MAE와 매우 유사하다. 다만 절댓값이 아닌 제곱을 사용하므로 오류에 대한 민감도를 더 높게 가져올 수 있다는 장점이 있다.
반응형

'MLOps' 카테고리의 다른 글

웹 싱글 패턴  (0) 2024.08.01
GitHub Actions를 활용한 머신러닝 모델 테스트 및 성능 모니터링 자동화  (0) 2024.05.04
모델 튜닝  (0) 2022.01.19
TFX Trainer 컴포넌트  (0) 2022.01.11
TFX 모델 학습 - 모델 정의하기  (0) 2022.01.10

댓글