Search

이 강의에서 다루는 것과 다루지 않는 것

Number
1

이 강의에서 다루는 것과 다루지 않는 것

강의의 목적

AI 에이전트 평가(Evaluation)를 왜 해야 하는지 먼저 이해시키는 것이 목표
평가의 필요성에 공감한 뒤, 무엇을 어떤 기준으로 평가할지를 설명
수강 전에 판단할 수 있도록 강의 범위와 제외 범위를 명확히 안내

왜 AI 에이전트 평가가 중요한가

일반 AI 사용과 에이전트의 차이

일반적인 챗봇 활용은 비교적 단순한 요청 중심
반면 AI 에이전트는 프롬프트가 길고, 여러 단계와 도구를 포함함
한 부분을 수정했을 때 다른 기능이 깨지는 등 회귀 문제가 자주 발생

평가 기준이 없을 때 생기는 문제

작은 개선에도 테스트와 검증 비용이 커짐
모든 케이스를 커버했는지 확인하기 어려움
결국 시간 낭비와 불확실성이 커짐

강의에서 다루는 핵심 내용

1) 평가용 데이터셋(Golden Dataset) 구축

평가 기준이 되는 데이터셋을 만드는 방법을 다룸
총 3가지 방식 활용:
RAGAS
py-zerox
Claude Code Skill
단순히 만드는 법뿐 아니라:
스킬을 어떻게 작성하는지
스킬을 어떻게 개선하는지
평가 데이터셋을 어떻게 더 나은 형태로 만들지 를 설명

2) 평가 지표 설계

평가 기준을 바탕으로 지표를 작성하는 방법을 다룸
주요 평가 항목은 다음 4가지:
답변 정확도
True/False 기반으로 정답 여부 판단
답변 품질
1점~5점 같은 점수 기반 평가
답변 일관성
여러 번 실행했을 때도 품질이 안정적인지 확인
생성 과정 평가
어떤 도구를 사용했는지
올바른 순서로 도구를 사용했는지
의도에 맞는 행동 경로를 따랐는지 확인

3) LangSmith를 활용한 측정 및 관리

평가 지표를 LangSmith로 측정하고 관리하는 방법을 설명
강의에서 다루는 에이전트가 LangChain / LangGraph 기반이므로,
트레이싱
디버깅
평가 추적 을 편리하게 할 수 있음을 보여줌

4) Anthropic의 에이전트 평가 관점

Anthropic이 제시한 AI 에이전트 평가 관점/지표를 소개
이를 LangGraph와 LangSmith로 어떻게 구현하고 추적할지 설명

실습/진행 방식

환경 구성

1.
UV 설치
2.
소스 코드 클론
3.
uv sync 실행하여 패키지 버전 및 파이썬 환경 구성

학습 포인트

코드 작성법 자체보다 평가 이론과 사고방식에 집중
강의 코드는 GitHub에 공개되어 있어, 코드보다 평가 관점을 보는 것이 중요

강의에서 강조하는 주의사항

1) 레이턴시(latency) 는 상황에 따라 다름

강의에서는 주로 외부 LLM API를 사용하므로 레이턴시 측정을 크게 강조하지 않음
하지만 로컬 모델을 쓰는 경우에는 레이턴시가 중요한 평가 지표가 될 수 있음

2) 비용 문제

평가를 반복 수행하므로 토큰 비용이 발생
예시로 Claude Opus 4.6 사용 시 비용이 꽤 들 수 있음
비용이 부담되면 Haiku / Nano 같은 더 저렴한 모델을 고려 가능

3) 랭그래프 문법 자체는 자세히 다루지 않음

이 강의의 초점은 에이전트 개발이 아니라 에이전트 평가
따라서 LangGraph의 함수/도구 구현 디테일은 깊게 설명하지 않음

4) Claude Code Skill의 상세한 작성법도 제한적으로 다룸

골든 데이터셋 작성에 사용하지만,
핵심은 평가 방법론이며, 에이전트 작성법 자체는 상세 강의 범위를 벗어남

5) 생성형 AI 평가 결과는 매번 같지 않을 수 있음

동일한 평가도 실행마다 결과가 달라질 수 있음
따라서 100점 목표는 위험함
대신 임계치(Threshold) 를 정해, 그 기준을 넘는지 보는 방식이 더 적절함

다루지 않는 내용

AI 에이전트 개발 전체 과정의 상세 구현
LangGraph 문법과 세부 코드 설명
Claude Code Skill의 고급/세밀한 작성법
성능 최적화 전반을 다루는 심화 내용
강의의 중심은 어디까지나 평가 설계와 측정, 관리

수강 전 권장 사항

먼저 “왜 평가가 필요한가”를 다룬 무료 강의를 보고 수강 여부를 결정하는 것을 권장
강의 이해가 어렵거나 설명이 부족하면 질문을 적극적으로 남길 것
다른 수강생에게도 도움이 되므로 질문과 상호 도움을 권장

한 줄 요약

이 강의는 AI 에이전트의 성능을 제대로 평가하기 위한 데이터셋, 지표, 측정 방식을 배우는 강의이며,에이전트 구현 자체보다 평가 방법론에 집중한다.