안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법
Search
안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법
•
인프런
안정적인 AI 에이전트 서비스 운영을 위한 평가(Evaluation) 방법
강의자료 입니다
Table
Search
목차
Number
제목
1
이 강의에서 다루는 것과 다루지 않는 것
Open
2
AI 에이전트 평가(Evaluation)란 무엇인가
Open
3
AI 에이전트 평가(Evaluation)를 꼭 해야하나?
Open
4
Golden Dataset이란?
Open
5
RAGAS 라이브러리를 활용한 Golden Dataset 생성
Open
6
LangSmith 계정에서 프로젝트와 API 설정
Open
7
커스텀 에이전트 + FAQ 를 활용한 Golden Dataset 생성
Open
8
커스텀 에이전트 + 일반 문서를 활용한 Golden Dataset 생성
Open
9
Claude Code Agent Skill을 활용한 Golden Dataset 생성
Open
10
e2e Evaluation - 정확한 답변을 생성했는가?
Open
11
e2e Evaluation - 얼마나 정확한 답변을 생성했는가?
Open
12
Component Evaluation - 답변에 필요한 문서를 잘 가져왔는가?
Open
13
Component Evaluation - 답변에 필요한 도구를 활용했는가?
Open
14
Component Evaluation - 답변에 필요한 도구를 순서대로 활용했는가? (trajectory)
Open
15
Anthropic에서 권장하는 에이전트 평가 지표
Open
16
pass^k - k번 모두 정답을 생성했는가?
Open
17
pass@k - k번 중 한 번이라도 정답을 생성했는가?
Open
18
전체 내용 복습과 평가 시스템 구축 방향
Open