이 강의에서 다루는 것과 다루지 않는 것
강의의 목적
•
AI 에이전트 평가(Evaluation)를 왜 해야 하는지 먼저 이해시키는 것이 목표
•
평가의 필요성에 공감한 뒤, 무엇을 어떤 기준으로 평가할지를 설명
•
수강 전에 판단할 수 있도록 강의 범위와 제외 범위를 명확히 안내
왜 AI 에이전트 평가가 중요한가
일반 AI 사용과 에이전트의 차이
•
일반적인 챗봇 활용은 비교적 단순한 요청 중심
•
반면 AI 에이전트는 프롬프트가 길고, 여러 단계와 도구를 포함함
•
한 부분을 수정했을 때 다른 기능이 깨지는 등 회귀 문제가 자주 발생
평가 기준이 없을 때 생기는 문제
•
작은 개선에도 테스트와 검증 비용이 커짐
•
모든 케이스를 커버했는지 확인하기 어려움
•
결국 시간 낭비와 불확실성이 커짐
강의에서 다루는 핵심 내용
1) 평가용 데이터셋(Golden Dataset) 구축
•
평가 기준이 되는 데이터셋을 만드는 방법을 다룸
•
총 3가지 방식 활용:
◦
RAGAS
◦
py-zerox
◦
Claude Code Skill
•
단순히 만드는 법뿐 아니라:
◦
스킬을 어떻게 작성하는지
◦
스킬을 어떻게 개선하는지
◦
평가 데이터셋을 어떻게 더 나은 형태로 만들지
를 설명
2) 평가 지표 설계
•
평가 기준을 바탕으로 지표를 작성하는 방법을 다룸
•
주요 평가 항목은 다음 4가지:
◦
답변 정확도
▪
True/False 기반으로 정답 여부 판단
◦
답변 품질
▪
1점~5점 같은 점수 기반 평가
◦
답변 일관성
▪
여러 번 실행했을 때도 품질이 안정적인지 확인
◦
생성 과정 평가
▪
어떤 도구를 사용했는지
▪
올바른 순서로 도구를 사용했는지
▪
의도에 맞는 행동 경로를 따랐는지 확인
3) LangSmith를 활용한 측정 및 관리
•
평가 지표를 LangSmith로 측정하고 관리하는 방법을 설명
•
강의에서 다루는 에이전트가 LangChain / LangGraph 기반이므로,
◦
트레이싱
◦
디버깅
◦
평가 추적
을 편리하게 할 수 있음을 보여줌
4) Anthropic의 에이전트 평가 관점
•
Anthropic이 제시한 AI 에이전트 평가 관점/지표를 소개
•
이를 LangGraph와 LangSmith로 어떻게 구현하고 추적할지 설명
실습/진행 방식
환경 구성
1.
UV 설치
2.
소스 코드 클론
3.
uv sync 실행하여 패키지 버전 및 파이썬 환경 구성
학습 포인트
•
코드 작성법 자체보다 평가 이론과 사고방식에 집중
•
강의 코드는 GitHub에 공개되어 있어, 코드보다 평가 관점을 보는 것이 중요
강의에서 강조하는 주의사항
1) 레이턴시(latency) 는 상황에 따라 다름
•
강의에서는 주로 외부 LLM API를 사용하므로 레이턴시 측정을 크게 강조하지 않음
•
하지만 로컬 모델을 쓰는 경우에는 레이턴시가 중요한 평가 지표가 될 수 있음
2) 비용 문제
•
평가를 반복 수행하므로 토큰 비용이 발생
•
예시로 Claude Opus 4.6 사용 시 비용이 꽤 들 수 있음
•
비용이 부담되면 Haiku / Nano 같은 더 저렴한 모델을 고려 가능
3) 랭그래프 문법 자체는 자세히 다루지 않음
•
이 강의의 초점은 에이전트 개발이 아니라 에이전트 평가
•
따라서 LangGraph의 함수/도구 구현 디테일은 깊게 설명하지 않음
4) Claude Code Skill의 상세한 작성법도 제한적으로 다룸
•
골든 데이터셋 작성에 사용하지만,
•
핵심은 평가 방법론이며, 에이전트 작성법 자체는 상세 강의 범위를 벗어남
5) 생성형 AI 평가 결과는 매번 같지 않을 수 있음
•
동일한 평가도 실행마다 결과가 달라질 수 있음
•
따라서 100점 목표는 위험함
•
대신 임계치(Threshold) 를 정해, 그 기준을 넘는지 보는 방식이 더 적절함
다루지 않는 내용
•
AI 에이전트 개발 전체 과정의 상세 구현
•
LangGraph 문법과 세부 코드 설명
•
Claude Code Skill의 고급/세밀한 작성법
•
성능 최적화 전반을 다루는 심화 내용
•
강의의 중심은 어디까지나 평가 설계와 측정, 관리
수강 전 권장 사항
•
먼저 “왜 평가가 필요한가”를 다룬 무료 강의를 보고 수강 여부를 결정하는 것을 권장
•
강의 이해가 어렵거나 설명이 부족하면 질문을 적극적으로 남길 것
•
다른 수강생에게도 도움이 되므로 질문과 상호 도움을 권장
한 줄 요약
•
이 강의는 AI 에이전트의 성능을 제대로 평가하기 위한 데이터셋, 지표, 측정 방식을 배우는 강의이며,에이전트 구현 자체보다 평가 방법론에 집중한다.