안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법

•

인프런 안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법 강의자료 입니다

Table

Search

Number

제목

1

이 강의에서 다루는 것과 다루지 않는 것

2

AI 에이전트 평가(Evaluation)란 무엇인가

3

AI 에이전트 평가(Evaluation)를 꼭 해야하나?

4

Golden Dataset이란?

5

RAGAS 라이브러리를 활용한 Golden Dataset 생성

6

LangSmith 계정에서 프로젝트와 API 설정

7

커스텀 에이전트 + FAQ 를 활용한 Golden Dataset 생성

8

커스텀 에이전트 + 일반 문서를 활용한 Golden Dataset 생성

9

Claude Code Agent Skill을 활용한 Golden Dataset 생성

10

e2e Evaluation - 정확한 답변을 생성했는가?

11

e2e Evaluation - 얼마나 정확한 답변을 생성했는가?

12

Component Evaluation - 답변에 필요한 문서를 잘 가져왔는가?

13

Component Evaluation - 답변에 필요한 도구를 활용했는가?

14

Component Evaluation - 답변에 필요한 도구를 순서대로 활용했는가? (trajectory)

15

Anthropic에서 권장하는 에이전트 평가 지표

16

pass^k - k번 모두 정답을 생성했는가?

17

pass@k - k번 중 한 번이라도 정답을 생성했는가?

18

전체 내용 복습과 평가 시스템 구축 방향