이 강의에서 다루는 것과 다루지 않는 것

Number

이 강의에서 다루는 것과 다루지 않는 것

강의의 목적

•

AI 에이전트 평가(Evaluation)를 왜 해야 하는지 먼저 이해시키는 것이 목표

•

평가의 필요성에 공감한 뒤, 무엇을 어떤 기준으로 평가할지를 설명

•

수강 전에 판단할 수 있도록 강의 범위와 제외 범위를 명확히 안내

왜 AI 에이전트 평가가 중요한가

일반 AI 사용과 에이전트의 차이

•

일반적인 챗봇 활용은 비교적 단순한 요청 중심

•

반면 AI 에이전트는 프롬프트가 길고, 여러 단계와 도구를 포함함

•

한 부분을 수정했을 때 다른 기능이 깨지는 등 회귀 문제가 자주 발생

평가 기준이 없을 때 생기는 문제

•

작은 개선에도 테스트와 검증 비용이 커짐

•

모든 케이스를 커버했는지 확인하기 어려움

•

결국 시간 낭비와 불확실성이 커짐

강의에서 다루는 핵심 내용

1) 평가용 데이터셋(Golden Dataset) 구축

•

평가 기준이 되는 데이터셋을 만드는 방법을 다룸

•

총 3가지 방식 활용:

◦

RAGAS

◦

py-zerox

◦

Claude Code Skill

•

단순히 만드는 법뿐 아니라:

◦

스킬을 어떻게 작성하는지

◦

스킬을 어떻게 개선하는지

◦

평가 데이터셋을 어떻게 더 나은 형태로 만들지
를 설명

2) 평가 지표 설계

•

평가 기준을 바탕으로 지표를 작성하는 방법을 다룸

•

주요 평가 항목은 다음 4가지:

◦

답변 정확도

▪

True/False 기반으로 정답 여부 판단

◦

답변 품질

▪

1점~5점 같은 점수 기반 평가

◦

답변 일관성

▪

여러 번 실행했을 때도 품질이 안정적인지 확인

◦

생성 과정 평가

▪

어떤 도구를 사용했는지

▪

올바른 순서로 도구를 사용했는지

▪

의도에 맞는 행동 경로를 따랐는지 확인

3) LangSmith를 활용한 측정 및 관리

•

평가 지표를 LangSmith로 측정하고 관리하는 방법을 설명

•

강의에서 다루는 에이전트가 LangChain / LangGraph 기반이므로,

◦

트레이싱

◦

디버깅

◦

평가 추적
을 편리하게 할 수 있음을 보여줌

4) Anthropic의 에이전트 평가 관점

•

Anthropic이 제시한 AI 에이전트 평가 관점/지표를 소개

•

이를 LangGraph와 LangSmith로 어떻게 구현하고 추적할지 설명

실습/진행 방식

환경 구성

UV 설치

소스 코드 클론

uv sync 실행하여 패키지 버전 및 파이썬 환경 구성

학습 포인트

•

코드 작성법 자체보다 평가 이론과 사고방식에 집중

•

강의 코드는 GitHub에 공개되어 있어, 코드보다 평가 관점을 보는 것이 중요

강의에서 강조하는 주의사항

1) 레이턴시(latency) 는 상황에 따라 다름

•

강의에서는 주로 외부 LLM API를 사용하므로 레이턴시 측정을 크게 강조하지 않음

•

하지만 로컬 모델을 쓰는 경우에는 레이턴시가 중요한 평가 지표가 될 수 있음

2) 비용 문제

•

평가를 반복 수행하므로 토큰 비용이 발생

•

예시로 Claude Opus 4.6 사용 시 비용이 꽤 들 수 있음

•

비용이 부담되면 Haiku / Nano 같은 더 저렴한 모델을 고려 가능

3) 랭그래프 문법 자체는 자세히 다루지 않음

•

이 강의의 초점은 에이전트 개발이 아니라 에이전트 평가

•

따라서 LangGraph의 함수/도구 구현 디테일은 깊게 설명하지 않음

4) Claude Code Skill의 상세한 작성법도 제한적으로 다룸

•

골든 데이터셋 작성에 사용하지만,

•

핵심은 평가 방법론이며, 에이전트 작성법 자체는 상세 강의 범위를 벗어남

5) 생성형 AI 평가 결과는 매번 같지 않을 수 있음

•

동일한 평가도 실행마다 결과가 달라질 수 있음

•

따라서 100점 목표는 위험함

•

대신 임계치(Threshold) 를 정해, 그 기준을 넘는지 보는 방식이 더 적절함

다루지 않는 내용

•

AI 에이전트 개발 전체 과정의 상세 구현

•

LangGraph 문법과 세부 코드 설명

•

Claude Code Skill의 고급/세밀한 작성법

•

성능 최적화 전반을 다루는 심화 내용

•

강의의 중심은 어디까지나 평가 설계와 측정, 관리

수강 전 권장 사항

•

먼저 “왜 평가가 필요한가”를 다룬 무료 강의를 보고 수강 여부를 결정하는 것을 권장

•

강의 이해가 어렵거나 설명이 부족하면 질문을 적극적으로 남길 것

•

다른 수강생에게도 도움이 되므로 질문과 상호 도움을 권장

한 줄 요약

•

이 강의는 AI 에이전트의 성능을 제대로 평가하기 위한 데이터셋, 지표, 측정 방식을 배우는 강의이며,에이전트 구현 자체보다 평가 방법론에 집중한다.