아파치 빔4 GCP를 사용한 대용량 데이터셋 처리 GCP를 사용한 대용량 데이터셋 처리데이터 수집량이 많아질수록 데이터 검증 단계에서 소요되는 시간은 더 커진다. 이때, 노드에의 병렬 배포를 수행하는 클라우드 솔루션을 활용하면 이러한 소요시간을 단축시킬 수 있다. TFDV는 아파치 빔에서 실행되기 때문에 구글 클라우드 데이터플로로의 전환이 쉽다. 구글 클라우드 데이터플로(Dataflow)에서 TFDV를 실행하는 방법을 알아보자.Google Cloud 서비스 계정 생성로컬 머신 또는 Cloud Shell에서 Cloud SDK를 사용하여 다음 명령어를 실행하여 서비스 계정을 만들고 권한을 부여한 후 키 파일을 JSON 형태로 받을 수 있다. 1. 서비스 계정 생성SERVICE_ACCOUNT_NAME에 설정하고자 하는 서비스 계정명을 입력한다.gcloud .. MLOps 2022. 1. 2. 아파치 빔 아파치 빔다양한 TFX 컴포넌트와 라이브러리는 아파치 빔을 사용하여 파이프라인 데이터를 효율적으로 처리한다. 아파치 빔을 파이프라인 오케스트레이션 툴로 사용하는 방법은 추후 자세히 알아보도록 하고, 여기서는 TFX 컴포넌트에서 아파치 빔이 어떻게 작동하는지 알아보도록 하겠다. 아파치 빔(Apache Beam)은 2016년 오픈소스 형태로 공개된 unified programming model로, ETL, 배치 프로세스, 스트리밍 작업을 포함하여 다양한 데이터 처리 파이프라인을 정의하고 실행하기 위한 프로그램이다. TFX는 아파치 빔에 의존하며, 다양한 컴포넌트 내에서 이를 사용하고 있다.설치아파치 빔은 다음 명령어로 설치할 수 있다.pip install apache-beampip install 'apach.. MLOps 2021. 12. 15. TFX - 텐서플로우 익스텐디드 TFX - 텐서플로우 익스텐디드이번 포스팅에서는 텐서플로우 기반 Google-production-scale 머신러닝 플랫폼인 텐서플로우 익스텐디드(TFX)를 소개하고 그 설치 방법을 알아보도록 하겠다. TFX를 사용하여 파이프라인 작업을 정의한 후 에어플로, 쿠브플로 파이프라인 등의 파이프라인 오케스트레이터로 파이프라인을 실행시킬 수 있다.1. TFX 소개머신러닝 파이프라인이 복잡해짐에 따라 작업 의존성을 관리하는 데에 드는 노력과 시간은 증가하기 마련이다. 파이프라인이 복잡해지고 커짐에 따라 태스크 간 결합을 수행하는 글루 코드(glue code)의 힘이 약해져 연결이 취약해지고, 이는 파이프라인의 고장을 초래할 수 있다. 여기서 연결이 취약해진다라고 함은, 프로덕션 모델의 업데이트가 주기적으로 이루어.. MLOps 2021. 12. 8. 파이프라인 오케스트레이션 파이프라인 오케스트레이션앞서 설명한 머신러닝 파이프라인의 모든 컴포넌트가 올바른 순서로 실행되도록 조정해야 할 필요가 있다. 각 컴포넌트는 실행되기 전에 해당 컴포넌트의 실행에 필요한 모든 입력값이 준비되어야 한다. 이러한 단계 조정에는 아파치 빔(Apache Beam), 아파치 에어플로(Apache Airflow), 쿠버네티스(Kubernetes) 인프라용 쿠브플로(Kubeflow) 파이프라인 등의 도구가 사용된다. 데이터 파이프라인 도구가 머신러닝 파이프라인 단계를 조정하는 동안, 텐서플로우 ML 메타데이터스토어(MetadataStore)와 같은 파이프라인 아티팩트(Artifact) 저장소는 개별 프로세스의 산출물을 저장한다.1) 파이프라인 오케스트레이션의 필요성2015년, 구글 머신러닝 엔지니어 팀.. MLOps 2021. 12. 6. 이전 1 다음