데이터 검증5 머신러닝 파이프라인에 TFDV 통합하기 머신러닝 파이프라인에 TFDV 통합하기TFX는 StatisticsGen이라는 파이프라인 컴포넌트를 제공한다. 이는 이전 ExampleGen 컴포넌트의 출력을 입력으로 받아 통계를 생성한다.from tfx.components import StatisticsGenfrom tfx.orchestration.experimental.interactive.interactive_context import InteractiveContextcontext = InteractiveContext()statistics_gen = StatisticsGen(examples=example_gen.outputs['example'])context.run(statistics_gen) InteractiveContext를 이용해 다음과 같이 .. MLOps 2022. 1. 3. GCP를 사용한 대용량 데이터셋 처리 GCP를 사용한 대용량 데이터셋 처리데이터 수집량이 많아질수록 데이터 검증 단계에서 소요되는 시간은 더 커진다. 이때, 노드에의 병렬 배포를 수행하는 클라우드 솔루션을 활용하면 이러한 소요시간을 단축시킬 수 있다. TFDV는 아파치 빔에서 실행되기 때문에 구글 클라우드 데이터플로로의 전환이 쉽다. 구글 클라우드 데이터플로(Dataflow)에서 TFDV를 실행하는 방법을 알아보자.Google Cloud 서비스 계정 생성로컬 머신 또는 Cloud Shell에서 Cloud SDK를 사용하여 다음 명령어를 실행하여 서비스 계정을 만들고 권한을 부여한 후 키 파일을 JSON 형태로 받을 수 있다. 1. 서비스 계정 생성SERVICE_ACCOUNT_NAME에 설정하고자 하는 서비스 계정명을 입력한다.gcloud .. MLOps 2022. 1. 2. 데이터 인식 데이터 인식데이터의 요약과 통계는 데이터 자체의 특성을 잘 드러내기는 하나, 잠재적인 문제를 발견하기에는 다소 부족한 면이 있다. TFDV가 어떻게 데이터에서 잠재적인 문제를 발견하고 어떤 도움을 줄 수 있는지 알아보도록 하자.데이터셋 비교머신러닝의 데이터셋에는 훈련 세트와 검증 세트가 있다. 검증 데이터는 학습 데이터로 학습된 모델이 제대로 학습되었는지를 검증하는 역할을 하기 때문에, 둘의 대표성이 동등해야 한다. 검증 데이터의 스키마가 학습 데이터와 같은지, feature의 열 또는 값이 유의미한 수준으로 누락되었는지 등을 살펴보고 이를 처리할 수 있는 방법이 필요하다. TFDV는 이러한 질문에 빠르게 답을 줄 수 있다. 다음과 같은 방식을 이용해 두 데이터셋을 불러와 통계를 비교해보자.train_s.. MLOps 2021. 12. 31. 데이터 검증 데이터 검증데이터는 모든 머신러닝 모델의 기본이다. 또한 모델의 유용성과 성능은 학습, 검증, 테스트에 사용되는 데이터의 질과 밀접한 연관이 있다. 머신러닝계에서 자주 언급되는 원칙인 GIGO(Garbage in, Garbage Out)는 이러한 특성을 잘 설명한다. 이처럼 데이터의 수집과 모델 학습 사이 제대로 된 데이터 검증은 필수적이다. 이번 게시글에서는 데이터 검증의 필요성과 그 아이디어를 짚어본 후 TFX에서 제공하는 TFDV(TensorFlow Data Validation)에 대해 알아보도록 하겠다. 데이터 검증 단계는 파이프라인의 데이터가 feature engineering 단계에서 기대하는 데이터인지 확인하는 단계이다. 데이터의 형태 및 feature는 물론 통계적인 특성 또한 점검함으로.. MLOps 2021. 12. 27. 머신러닝 파이프라인 단계 머신러닝 파이프라인 단계머신러닝 파이프라인은 새로운 학습 데이터 수집을 시작으로, 모델의 작동 피드백을 받는 것까지를 포함한다. 그 안에는 데이터 전처리, 모델 학습 및 분석, 모델 배포 등 다양한 단계가 포함되어 있다. 이러한 단계를 자동으로, 또 반복적으로 수행할 수 있게 하는 것이 머신러닝 파이프라인의 목적이다.위 그림에서처럼, 머신러닝 파이프라인은 반복되는 주기를 가진다. 데이터를 데이터 소스로부터 지속적으로 수집할 수 있으므로 모델의 지속적인 업데이트가 가능하고, 자동화된 재학습을 통해 모델의 성능을 개선할 수 있다. 실제 실무에서는 과거의 데이터와 현재 유입되는 데이터가 같다는 보장이 없는 경우가 많아 지속적인 재학습을 통한 업데이트가 필수적이며, 이를 머신러닝 파이프라인이 수행한다.1) 데이.. MLOps 2021. 12. 3. 이전 1 다음