TFX 컴포넌트 개요
컴포넌트는 단일 태스크의 실행보다 더 복잡한 프로세스를 처리한다.
모든 머신러닝 파이프라인 컴포넌트는 메타데이터스토어에서 입력 아티팩트를 가져오고, 메타데이터스토어에서 제공한 경로에서 데이터를 로드하여 처리한다. 컴포넌트는 처리된 데이터를 출력하고 이 데이터는 다음 파이프라인 컴포넌트에 제공된다. 즉, 컴포넌트 내부에서는 다음과 같은 작업이 수행된다고 할 수 있다.
- 입력 수신: 메타데이터스토어로부터 입력 아티팩트 수신 및 데이터 로드
- 작업 수행: 데이터 처리
- 최종 결과 저장: 결과 저장 후 출력
위 세 가지 작업을 수행하는 컴포넌트 내 파트를 각각 드라이버(driver), 실행자(executor), 배포자(publisher)라고 한다.
드라이버는 메타데이터스토어에서 입력 데이터를 가져오며, 실행자는 컴포넌트의 작업을 수행하고 배포자는 최종 결과의 메타데이터를 메타데이터스토어에 저장하는 것을 관리한다.
여기서 주의할 점은, 드라이버와 배포자는 실제로 데이터를 이동시키지 않는다는 점이다. 이들은 메타데이터스토어에서 데이터의 주소를 읽고 쓰는 역할을 한다.
이러한 방식을 사용할 경우 모든 정보를 한 곳에 저장하고 관리할 수 있다는 장점이 있다.
컴포넌트는 메타데이터스토어로부터 입력 아티팩트를 가져오는데, 여기서 아티팩트(artifact)란, 컴포넌트의 입력 및 출력을 의미한다. 아티팩트의 예로는 raw data, preprocessed data, trained model 등이 있다. 각 아티팩트는 메타데이터스토어에 저장된 메타데이터와 연결되며, 아티팩트 메타데이터는 아티팩트 유형과 속성으로 구성된다. 이러한 아티팩트 설정을 통해 컴포넌트가 데이터를 효과적으로 교환할 수 있다.
TFX는 21년 10월 기준 10가지 유형의 아티팩트를 제공하고 있다.
'MLOps' 카테고리의 다른 글
대화형 파이프라인 (0) | 2021.12.13 |
---|---|
ML 메타데이터 (0) | 2021.12.12 |
TFX - 텐서플로우 익스텐디드 (0) | 2021.12.08 |
파이프라인 오케스트레이션 (0) | 2021.12.06 |
머신러닝 파이프라인 단계 (0) | 2021.12.03 |
댓글