데이터 수집3 데이터 준비 데이터 준비ExampleGen 컴포넌트를 이용하여 데이터셋의 입력 설정(input_config)과 출력 설정(output_config)을 구성할 수 있다. 이외에도 데이터셋을 점진적으로 수집하는 스패닝(spanning)과 데이터셋 분할 방법 또한 정의할 수 있다.1) 데이터셋 분할머신러닝 파이프라인의 후반부에는 모델을 학습시키고 이를 검증시키는 단계가 포함되어 있다. 이를 위해서는 데이터셋을 이에 필요한 하위 집합(학습 세트, 검증 세트 등)으로 분할을 해두는 것이 좋다. 단일 데이터셋을 하위 집합으로 분할다음 코드는 데이터 수집 단계에서 데이터셋을 학습, 검증, 테스트 세트로 나누는 방법을 보여준다. 여기서 각 세트 별 비율 hash_buckets로 정의한다.import osfrom tfx.orches.. MLOps 2021. 12. 21. 데이터 수집 데이터 수집 TFX를 이용한 머신러닝 파이프라인에서는 기본 TFX 설정과 ML 메타데이터스토어를 사용하여 다양한 컴포넌트에서 활용할 수 있는 데이터셋을 수집할 수 있다. TFX는 파일이나 서비스로부터 데이터를 수집하는 컴포넌트를 제공한다. 이는 수집뿐만 아니라 학습 데이터와 검증 데이터로의 분할, 그리고 추출된 데이터를 하나의 데이터셋으로 결합하는 작업까지의 프로세스를 모두 수행한다.TFRecord & ExampleGenTFRecord는 대용량 데이터셋 스트리밍에 최적화된 경량화 포맷이다. TFRecord는 직렬화된 프로토콜 버퍼를 포함하여 거의 모든 바이너리 데이터의 저장을 지원한다.import tensorflow as tfwith tf.io.TFRecordWriter('test.tfrecord') .. MLOps 2021. 12. 19. 머신러닝 파이프라인 단계 머신러닝 파이프라인 단계머신러닝 파이프라인은 새로운 학습 데이터 수집을 시작으로, 모델의 작동 피드백을 받는 것까지를 포함한다. 그 안에는 데이터 전처리, 모델 학습 및 분석, 모델 배포 등 다양한 단계가 포함되어 있다. 이러한 단계를 자동으로, 또 반복적으로 수행할 수 있게 하는 것이 머신러닝 파이프라인의 목적이다.위 그림에서처럼, 머신러닝 파이프라인은 반복되는 주기를 가진다. 데이터를 데이터 소스로부터 지속적으로 수집할 수 있으므로 모델의 지속적인 업데이트가 가능하고, 자동화된 재학습을 통해 모델의 성능을 개선할 수 있다. 실제 실무에서는 과거의 데이터와 현재 유입되는 데이터가 같다는 보장이 없는 경우가 많아 지속적인 재학습을 통한 업데이트가 필수적이며, 이를 머신러닝 파이프라인이 수행한다.1) 데이.. MLOps 2021. 12. 3. 이전 1 다음