* 한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬받아 작성된 서평입니다.
AI 엔지니어링
칩 후옌 저자(글)
변성윤 번역
AI 엔지니어링 | 칩 후옌 - 교보문고
AI 엔지니어링 | 최고의 AI 전문가 칩 후옌이 엔비디아, 스노클 AI, 스탠퍼드에서 쌓은 현장 경험과 노하우! 모델 활용을 넘어서, 실전으로 통하는 AI 서비스 설계 가이드프로덕트 레벨에 맞는 설계
product.kyobobook.co.kr
간단 서평
이 책은 인공지능이 단순히 모델을 만드는 기술이 아니라, 그것을 실제 서비스로 구현하고 사용자에게 신뢰받는 시스템으로 발전시키는 전 과정을 다루는 드문 저서다. 저자는 엔비디아, 스탠퍼드, 스노클 AI에서의 경험을 바탕으로 ‘AI 엔지니어링’이라는 개념을 명확히 정립하며, 이론보다는 현장에서 맞닥뜨리는 구체적인 문제들을 중심으로 이야기를 풀어나간다. 초반부에서는 대규모 언어모델의 발전이 불러온 변화를 짚으며, 단순한 API 호출로는 해결되지 않는 복잡한 문제들 속에서 왜 새로운 엔지니어링 패러다임이 필요한지를 차분히 설명한다. AI를 단순히 모델 수준의 기술로 보지 않고, 실제로 작동하고 개선되는 시스템으로 바라보는 사고 틀을 제시한다는 점이 특히 인상 깊었다.
가장 공감하며 읽은 부분은 모델 평가를 다룬 장이었다. 기존 머신러닝에서는 정확도나 F1 점수로 성능을 재단할 수 있었지만, 생성형 모델의 세계에서는 좋은 답변이란 무엇인가라는 훨씬 모호한 질문에 부딪힌다. 저자는 이런 불확실성 속에서도 데이터 기반의 지표를 설계하고, AI가 스스로 다른 모델을 평가하도록 하는 새로운 접근법을 제시한다. 실제로 나 역시 HCI 연구자로서 AI 시스템을 개발하며, 파일럿 테스트 과정에서 사용자의 피드백이 기존의 수치적 성능 평가와 어긋나는 경험을 여러 번 했다. 사용자는 모델의 정확도보다 대화의 일관성이나 피드백의 자연스러움을 더 중요하게 여겼고, 그 부분을 제대로 포착하지 못하면 시스템은 쉽게 신뢰를 잃었다. 이 책에서 제안하는 평가 방법론을 적용한 이후에는 단순히 정답을 맞히는 모델이 아니라, 신뢰를 설계하는 시스템이라는 관점으로 연구를 바라보게 되었다.
책의 중반부에서는 프롬프트 엔지니어링, RAG, 에이전트, 파인튜닝, 데이터셋 설계 등 각 기술 요소가 실제 제품 완성 과정에서 어떻게 맞물리는지를 단계적으로 설명한다. 단순히 기법을 나열하는 것이 아니라, 언제 어떤 접근이 적절한지를 스스로 판단할 수 있는 기준을 제시한다는 점이 돋보인다. 특히 파인튜닝 장에서는 모델을 조정하는 것이 항상 정답이 아니라는 사실을 명확히 짚는다. 내가 참여했던 공동 창작 지원 시스템 프로젝트에서도 모델의 반응이 불안정하다고 느껴질 때마다 파인튜닝을 시도했지만, 오히려 과적합이 발생해 일반 사용자 환경에서의 반응성이 떨어진 적이 있었다. 이후 이 책에서 제시하는 대로 검색 기반 보강과 컨텍스트 관리 방식을 도입했더니 시스템의 안정성과 응답 품질이 모두 향상되었다.
마지막 장은 AI 아키텍처를 전체적인 시야로 통합하는 내용을 담고 있다. 컨텍스트 보강, 가드레일, 모델 라우팅, 캐시 최적화, 에이전트 패턴 등 실제 시스템을 설계할 때 고려해야 할 요소들을 순차적으로 설명하며, 이론과 현장의 경계를 자연스럽게 연결한다. 특히 사용자 피드백을 기반으로 한 반복 개선 루프를 강조하는 부분이 깊이 남았다. HCI 연구를 하며 내가 가장 중요하게 여기는 부분도 바로 이 지점이다. 사용자 연구와 프로토타입 실험, 그리고 파일럿 테스트를 통해 얻은 피드백을 기술적 개선으로 연결하는 일은 결코 쉽지 않다. 지연 시간과 비용의 균형을 맞히는 문제, 모델 업데이트 이후 인터페이스 변화로 사용성이 흔들리는 문제 등 다양한 엔지니어링 과제를 직접 해결해야 했다. 책에서 제시하는 단계적 아키텍처 설계와 모니터링 전략은 이러한 어려움을 해소하는 데 큰 도움이 되었다.
결국 이 책은 단순한 기술 매뉴얼이 아니라, AI 프로덕트를 설계하는 사고방식을 길러주는 안내서다. 저자는 알고리즘의 세부보다는 문제를 정의하고 평가하며 개선하는 과정을 통해 엔지니어링의 본질을 보여준다. 빠르게 변하는 기술 환경 속에서 무엇을 우선순위로 삼아야 하는지 혼란스러웠던 나에게, 이 책은 방향을 잡아주는 나침반과 같았다. 특히 평가와 추론 최적화, 시스템 아키텍처를 다룬 장은 지금도 프로젝트를 설계할 때마다 다시 펼쳐보게 된다.
단순 개발과 모델 활용의 단계를 넘어 시스템의 아키텍처를 안정적으로 설계하고 구축하는 능력이 중요해진 지금, 이 책은 그 변화를 이해하고 실천할 수 있게 돕는 든든한 지침서다. 연구자든 개발자든, 이 책을 읽고 나면 기술과 현실, 이상과 실행의 사이에서 흔들리지 않을 중심을 갖게 될 것이다.
목차
1장 파운데이션 모델을 활용한 AI 애플리케이션 입문
_1.1 AI 엔지니어링의 부상
__1.1.1 언어 모델에서 대규모 언어 모델로
__1.1.2 대규모 언어 모델에서 파운데이션 모델로
__1.1.3 파운데이션 모델에서 AI 엔지니어링으로
_1.2 파운데이션 모델 활용 사례
__1.2.1 코딩
__1.2.2 이미지 및 동영상 제작
__1.2.3 글쓰기
__1.2.4 교육
__1.2.5 대화형 봇
__1.2.6 정보 집계
__1.2.7 데이터 체계화
__1.2.8 워크플로 자동화
_1.3 AI 애플리케이션 기획
__1.3.1 활용 사례 평가
__1.3.2 기대치 설정
__1.3.3 마일스톤 계획
__1.3.4 유지보수
_1.4 AI 엔지니어링 스택
__1.4.1 AI의 세 가지 계층
__1.4.2 AI 엔지니어링 대 ML 엔지니어링
__1.4.3 AI 엔지니어링 대 풀스택 엔지니어링
_1.5 마치며
2장 파운데이션 모델 이해하기
_2.1 학습 데이터
__2.1.1 다국어 모델
__2.1.2 도메인 특화 모델
_2.2 모델링
__2.2.1 모델 아키텍처
__2.2.2 모델 크기
_2.3 사후 학습
__2.3.1 지도 파인튜닝
__2.3.2 선호도 파인튜닝
_2.4 샘플링
__2.4.1 샘플링의 기초
__2.4.2 샘플링 전략
__2.4.3 테스트 시점 연산
__2.4.4 구조화된 출력
__2.4.5 AI의 확률적 특성
_2.5 마치며
3장 평가 방법론
_3.1 파운데이션 모델 평가의 어려움
_3.2 언어 모델링 지표 이해하기
__3.2.1 엔트로피
__3.2.2 교차 엔트로피
__3.2.3 문자당 비트와 바이트당 비트
__3.2.4 퍼플렉시티
__3.2.5 퍼플렉시티 해석과 활용 사례
_3.3 정확한 평가
__3.3.1 기능적 정확성
__3.3.2 참조 데이터 유사도 측정
__3.3.3 임베딩 소개
_3.4 AI 평가자
__3.4.1 AI 평가자를 쓰는 이유
__3.4.2 AI 평가자 사용법
__3.4.3 AI 평가자의 한계
__3.4.4 평가자로 활용 가능한 모델
_3.5 비교 평가를 통해 모델 순위 정하기
__3.5.1 비교 평가의 과제들
__3.5.2 비교 평가의 미래
_3.6 마치며
4장 AI 시스템 평가하기
_4.1 평가 기준
__4.1.1 도메인 특화 능력
__4.1.2 생성 능력
__4.1.3 지시 수행 능력
__4.1.4 비용과 지연 시간
_4.2 모델 선택
__4.2.1 모델 선택 과정
__4.2.2 모델 자체 개발 대 상용 모델 구매
__4.2.3 공개 벤치마크 탐색하기
_4.3 평가 파이프라인 설계하기
__4.3.1 1단계: 시스템의 모든 구성 요소 평가하기
__4.3.2 2단계: 평가 가이드라인 만들기
__4.3.3 3단계: 평가 방법과 데이터 정의하기
_4.4 마치며
5장 프롬프트 엔지니어링
_5.1 프롬프트 소개
__5.1.1 인컨텍스트 학습: 제로샷과 퓨샷
__5.1.2 시스템 프롬프트와 사용자 프롬프트
__5.1.3 컨텍스트 길이와 컨텍스트 효율성
_5.2 프롬프트 엔지니어링 모범 사례
__5.2.1 명확하고 명시적인 지시 작성하기
__5.2.2 충분한 컨텍스트 제공하기
__5.2.3 복잡한 작업을 단순한 하위 작업으로 나누기
__5.2.4 모델에게 생각할 시간 주기
__5.2.5 프롬프트 반복하며 개선하기
__5.2.6 프롬프트 엔지니어링 도구 평가하기
__5.2.7 프롬프트 정리 및 버전 관리하기
_5.3 방어적 프롬프트 엔지니어링
__5.3.1 독점 프롬프트와 역 프롬프트 엔지니어링
__5.3.2 탈옥과 프롬프트 주입
__5.3.3 정보 추출
__5.3.4 프롬프트 공격에 대한 방어
_5.4 마치며
6장 RAG와 에이전트
_6.1 RAG
__6.1.1 RAG 아키텍처
__6.1.2 검색 알고리즘
__6.1.3 검색 최적화
__6.1.4 텍스트를 넘어선 RAG
_6.2 에이전트
__6.2.1 에이전트 개요
__6.2.2 도구
__6.2.3 계획 수립
__6.2.4 에이전트 실패 유형과 평가
_6.3 메모리
_6.4 마치며
7장 파인튜닝
_7.1 파인튜닝 개요
_7.2 파인튜닝이 필요한 경우
__7.2.1 파인튜닝을 해야 하는 이유
__7.2.2 파인튜닝을 하지 말아야 하는 이유
__7.2.3 파인튜닝과 RAG
_7.3 메모리 병목 현상
__7.3.1 역전파와 학습 가능한 파라미터
__7.3.2 메모리 계산
__7.3.3 수치 표현 방식
__7.3.4 양자화
_7.4 파인튜닝 기법
__7.4.1 파라미터 효율적 파인튜닝
__7.4.2 모델 병합과 다중 작업 파인튜닝
__7.4.3 파인튜닝 전술
_7.5 마치며
8장 데이터셋 엔지니어링
_8.1 데이터 큐레이션
__8.1.1 데이터 품질
__8.1.2 데이터 커버리지
__8.1.3 데이터 양
__8.1.4 데이터 수집과 주석
_8.2 데이터 증강 및 합성
__8.2.1 데이터 합성을 하는 이유
__8.2.2 전통적인 데이터 생성 기법
__8.2.3 AI 기반 데이터 합성
__8.2.4 모델 증류
_8.3 데이터 처리
__8.3.1 데이터 검사
__8.3.2 데이터 중복 제거
__8.3.3 데이터 정리 및 필터링
__8.3.4 데이터 형식 맞추기
_8.4 마치며
9장 추론 최적화
_9.1 추론 최적화 이해하기
__9.1.1 추론 개요
__9.1.2 추론 성능 지표
__9.1.3 AI 가속기
_9.2 추론 최적화
__9.2.1 모델 최적화
__9.2.2 추론 서비스 최적화
_9.3 마치며
10장 AI 엔지니어링 아키텍처와 사용자 피드백
_10.1 AI 엔지니어링 아키텍처
__10.1.1 1단계: 컨텍스트 보강
__10.1.2 2단계: 가드레일 도입하기
__10.1.3 3단계: 모델 라우터와 게이트웨이 추가
__10.1.4 4단계: 캐시로 지연 시간 줄이기
__10.1.5 5단계: 에이전트 패턴 추가
__10.1.6 모니터링과 관찰 가능성
__10.1.7 AI 파이프라인 오케스트레이션
_10.2 사용자 피드백
__10.2.1 대화형 피드백 추출
__10.2.2 피드백 설계
__10.2.3 피드백의 한계
_10.3 마치며
'리뷰 > 도서, 강의 리뷰' 카테고리의 다른 글
| [도서 리뷰] 밑바닥부터 배우는 AI 에이전트 (1) | 2026.01.12 |
|---|---|
| [도서 리뷰] 혼자 공부하는 바이브 코딩 with 클로드 코드 (0) | 2025.12.28 |
| [도서 리뷰] 무책임한 AI (0) | 2025.09.28 |
| [도서 리뷰] 잘되는 머신러닝 팀엔 이유가 있다 (8) | 2025.07.27 |
| [도서 리뷰] 랭체인으로 RAG 개발하기: VectorRAG & GraphRAG (0) | 2025.07.13 |
댓글