전체 내용 복습과 평가 시스템 구축 방향
1. 강의에서 다룬 핵심 평가 지표 복습
정확한 답변 생성 여부
•
처음에는 맞는지/틀린지를 True/False 또는 0/1 점수로 빠르게 확인하는 방식으로 평가했습니다.
•
이후에는 단순 정답 여부를 넘어서, 1점~5점 같은 구간형 점수를 통해 답변의 품질을 더 세밀하게 평가했습니다.
•
이를 통해 정확성(accuracy), groundness, conciseness(간결성) 같은 요소를 점검하고 개선했습니다.
문서 검색 및 활용 여부
•
에이전트가 필요한 문서를 잘 가져오는지를 평가했습니다.
•
사내 문서 에이전트 사례에서:
◦
문서를 바로 답변에 쓰지 않고 반드시 문서를 참고하도록 프롬프트 개선
◦
잘못된 문서 검색을 줄이기 위해 툴 자체를 수정
•
즉, retrieval quality가 중요한 평가 대상이었습니다.
도구 사용 및 실행 경로
•
에이전트가 의도한 도구를 잘 선택했는지를 평가했습니다.
•
또한 도구를 순서대로 올바르게 활용했는지를 추적했습니다.
•
실행 경로를 분석해:
◦
중복된 도구 사용
◦
비효율적인 호출
◦
불필요한 토큰 낭비
를 줄이도록 프롬프트를 개선했습니다.
pass@k / pass^k 지표
•
pass@k: 여러 번 시도했을 때 최초 1회라도 성공할 가능성
◦
주로 코딩 에이전트, 마케팅 문구 생성처럼 한 번의 성공이 중요한 경우에 적합
•
pass^k: K회 모두 성공하는지
◦
일관성 있는 답변이 중요한 경우에 적합
◦
예: 고객 지원(CS) 에이전트처럼 반복적으로 안정적인 성능이 필요한 경우
2. 평가의 목적은 “높은 점수”가 아님
오버피팅을 경계해야 함
•
평가 점수를 100% 맞추려는 식으로 프롬프트를 과하게 조정하면 오버피팅이 발생할 수 있습니다.
•
중요한 것은 평가 점수 자체가 아니라, 실제 서비스에서 가치를 제공하는지입니다.
평가의 진짜 목적
•
에이전트가:
◦
사용자에게 가치를 주는지
◦
배포할 만한 수준인지
◦
운영 가능한 서비스인지
를 판단하는 데 있습니다.
•
즉, 평가 점수는 목적이 아니라 의사결정을 돕는 도구입니다.
3. 어떤 지표를 선택해야 하는가
모든 지표를 다 볼 필요는 없음
•
강의에서 다룬 일곱 가지 지표를 전부 사용할 필요는 없습니다.
•
에이전트의 목적, 아키텍처, 실패 시나리오에 따라 필요한 지표가 달라집니다.
지표 선택 기준
•
에이전트가 무엇을 해결하는지
•
실패했을 때 어떤 문제가 생기는지
•
어떤 특성이 서비스 안정성에 중요한지
예시
•
CS 에이전트
◦
한 번만 맞추는 것이 아니라 항상 안정적으로 답해야 함
◦
따라서 pass@k보다는 pass^k나 일관성 관련 지표가 더 중요할 수 있음
•
논문 검색 에이전트
◦
아카이브(arXiv)를 쓰든, 태빌리티(Tavily)를 쓰든 결과만 좋으면 되는 경우가 있음
◦
하지만 비용이나 지연 시간이 중요하면 도구 선택 자체도 평가 대상이 될 수 있음
4. 평가 설계 시 고려해야 할 핵심 포인트
1) 에이전트의 목적
•
왜 이 에이전트를 만들었는지
•
사용자가 왜 이 에이전트를 써야 하는지
2) 실패 시나리오
•
잘못된 답변이 나오면 어떤 문제가 생기는지
•
실패 시 비용이 큰지, 작은지
3) 핵심 지표 선정
•
성능을 가장 잘 반영하는 핵심 지표를 선택해야 함
•
모든 것을 다 측정하는 것이 항상 좋은 것은 아님
4) 골든 데이터셋 구축
•
선택한 지표를 기반으로 Golden Dataset을 만들고
•
그 데이터셋으로 평가를 진행하는 방식이 중요함
5. 좋은 에이전트의 기준에 대한 관점
점수가 높다고 무조건 좋은 것은 아님
•
올바른 지표를 측정해야만 평가 결과가 의미가 있습니다.
•
예를 들어, 고객지원 에이전트는 한 번만 성공할 확률이 높다고 해서 좋은 것이 아닙니다.
•
중요한 것은 실제 사용 맥락에서 신뢰할 수 있는 성능입니다.
평가 전에 먼저 정의해야 할 것
•
성공이 무엇인지
•
신뢰할 수 있다는 것이 무엇인지
•
서비스 관점에서 허용 가능한 실패는 무엇인지
6. 마무리 및 향후 방향
•
앞으로도 새로운 평가 지표와 방법론이 계속 등장할 것입니다.
•
강의자는 업무에서 유용한 지표를 발견하면 강의 업데이트와 함께 공유할 예정이라고 했습니다.
•
이후에는 스킬을 활용해 에이전트를 만드는 강의도 준비할 계획이라고 언급했습니다.
7. 핵심 요약
•
평가의 목적은 점수 최적화가 아니라 서비스 가치 검증입니다.
•
에이전트의 목적, 실패 비용, 사용 맥락에 맞는 지표를 골라야 합니다.
•
모든 지표를 다 볼 필요는 없고, 핵심 지표와 골든 데이터셋에 집중하는 것이 중요합니다.
•
pass@k, pass^k는 에이전트 유형에 따라 다르게 해석해야 하며, 특히 일관성이 필요한 서비스에서는 pass^k가 더 중요할 수 있습니다.