반응형
머신러닝 파이프라인의 필요성
모델 생애 주기(Modle Lifecycle) 단계를 자동화할 수 있다는 점은 머신러닝 파이프라인의 주요 이점 중 하나이다. 새로운 훈련 데이터가 들어왔을 때, 데이터 검증, 전처리, 훈련, 분석 및 배포 등 전체 워크플로우를 자동으로 재설정할 수 있게 하는 것이 바로 머신러닝 파이프라인인 것이다.
머신러닝 파이프라인의 이점
- 기존 모델 유지보수에서 벗어나 새 모델에 집중할 수 있다: 새로운 모델 개발 시간 확보
자동화된 ML 파이프라인은 기존 모델을 유지보수할 필요성을 줄여준다. 기존의 모델 조정 방식은 학습 데이터를 전처리하거나 일회성 배포를 수행하는 스크립트를 수동으로 실행하는 등의 형태로, 데이터 사이언티스트의 업무에 부담을 주었다. 이러한 방식은 시간과 비용이 많이 드는 것은 물론, 오류가 발생할 확률도 굉장히 크다.
하지만 ML 파이프라인을 자동화하면, 불필요한 반복 작업에서 벗어나 본질적인 업무를 수행할 수 있게 하여 데이터 사이언티스트의 수행능력과 직업만족도(?)를 높여준다. - 버그 예방
앞서 언급했듯이, 기존 수동 작업에 의존한 방식은 오류를 발생시킬 확률이 크다. 이러한 오류는 주로 전처리 단계에서 발생한다. 모델이 학습된 후, 전처리 단계가 업데이트되는 등의 변화가 생기면 기존 모델이 그에 맞게 수정되지 못하여 문제가 발생하곤 한다. 하지만 적절하게 자동화된 ML 파이프라인은 새로운 데이터가 들어옴과 동시에 새로운 모델을 형성하고, 전처리 단계의 업데이트가 이루어질 경우 기존의 학습 데이터를 무효화하고 새로 학습을 수행하기 때문에 오류를 방지할 수 있다. - 버전 관리 문서화: 모델 재현에 소요되는 시간 단축
실무에서는 모델의 학습을 실험적으로 관리하고, 결과적으로 어떤 모델이 선택되어 배포되었는지 등의 정보를 정확히 기록할 필요가 있다. 이는 이후 데이터 사이언스팀이 모델을 재생성하거나 성능을 추적하기 위해 사용되는 중요한 정보로, 자동화된 ML 파이프라인은 이를 자동으로 기록할 수 있다. - 표준화: 기존 모델을 더욱 간단한 프로세스로 업데이트
표준화된 설정은 업무 적응력과 모델의 재사용성을 극대화시킨다. 팀 간 이동을 하거나, 새로운 프로젝트를 설정할 때 초기에 소요되는 시간을 줄일 수 있다. 즉, ML 파이프라인을 구축하는 데 시간을 투자하면 추후 그 몇 배만큼의 시간을 아끼고 모델의 수명 또한 늘릴 수 있다.
머신러닝 파이프라인이 수행하는 일
- 데이터셋이나 학습된 모델에서 잠재적인 편향을 감지하는데 도움을 준다.
ex - '아마존'의 머신러닝 기반 이력서 평가 시스템은 여성 지원자에 대한 부정적인 편향을 가지고 있음이 확인된 바 있다. - 모델의 하이퍼 파라미터, 사용 데이터셋의 버전, 모델의 성능평가지표 등의 변경 사항을 기록한다.
- 데이터 과학자의 실질적 개발 시간 확보 및 업무 만족도 증진
머신러닝 파이프라인을 고려해야 할 시기
머신러닝 파이프라인은 다양한 이점을 제공하지만, 모든 데이터 사이언스 프로젝트에 필요한 것은 아니다. 단순히 모델을 실험하거나, 새로운 모델 아키텍처를 조사하는 등의 업무에서는 파이프라인이 유용하지 않을 것이다. 구축에 드는 시간이 전체 실험에 소요되는 시간보다 길기 때문이다.
그러나, 모델에 사용자가 있다면 지속적인 업데이트 및 파인 튜닝(fine tuning)이 이루어져야 하며, 이 경우에는 ML 파이프라인이 굉장히 유용할 것이다.
머신러닝 프로젝트의 수가 증가할수록 ML 파이프라인의 중요성이 커진다고 할 수 있는데, 데이터셋이나 리소스 요구 사항이 클 경우 머신러닝 파이프라인을 적극적으로 활용하여 인프라 확장을 손쉽게 할 수 있기 때문이다.
또한 반복성이 중요한 프로젝트의 경우 ML 파이프라인은 이러한 프로세스의 자동화와 모델 추적을 통해 프로젝트의 수행을 용이하게 만든다.
반응형
'MLOps' 카테고리의 다른 글
TFX 컴포넌트 개요 (0) | 2021.12.11 |
---|---|
TFX - 텐서플로우 익스텐디드 (0) | 2021.12.08 |
파이프라인 오케스트레이션 (0) | 2021.12.06 |
머신러닝 파이프라인 단계 (0) | 2021.12.03 |
MLOps: 머신러닝 파이프라인이란 (0) | 2021.11.30 |
댓글