Search

Anthropic에서 권장하는 에이전트 평가 지표

Number
15

Anthropic에서 권장하는 에이전트 평가 지표

개요

이번 강의는 Anthropic(엔스로픽) 이 공개한 에이전트 평가 방법론을 소개합니다.
특히 AI 에이전트의 비결정성(non-determinism) 때문에, 단일 실행만으로는 부족하고 여러 번 시도한 결과를 함께 평가해야 한다는 점을 강조합니다.

Anthropic이 말하는 3가지 평가 방식

Anthropic 관점에서의 에이전트 평가는 크게 3가지로 나뉩니다.

1) 코드베이스 기반 평가

코드/로직 수준에서 에이전트의 동작을 직접 검증하는 방식입니다.
String Match Check
문서 검색/검증 상황에서 원하는 문서를 제대로 가져왔는지 문자열 비교로 확인
Tool Call Verification
에이전트가 올바른 도구(tool) 를 사용했는지 검증
Transcript Analysis
어떤 방식으로 답변을 만들었는지, 턴 수(turns)토큰 사용량 등을 분석
강의에서는 이를 trajectory eval 관점으로 설명함

2) 모델 기반 그레이더(Model-based Grader)

LLM 자체를 평가자로 사용하는 방식입니다.
LLM as Judge
모델이 다른 모델의 출력을 채점
Rubric-based Scoring
1~5점 같은 기준을 미리 정의해 점수화
Reference-based Evaluation
골든 데이터셋(Golden Dataset) 을 만들고, 이를 기준으로 성능 평가

3) 휴먼 그레이더(Human Grader)

사람이 직접 평가하는 방식입니다.
가장 정확할 수 있음
특히 도메인 전문가가 평가하면 신뢰도가 높음
하지만:
비용이 높고
시간이 오래 걸려
실제 운영에서는 자주 쓰기 어렵습니다

왜 여러 번 평가해야 하는가: 비결정성

LLM은 temperature를 0으로 설정해도 완전히 동일한 답을 보장할 수 없습니다.
따라서 에이전트 평가는 한 번의 실행(single run) 이 아니라, 여러 번 반복 실행(K번 시도) 을 통해 안정성과 일관성을 봐야 합니다.

반복 실행 기반 지표: pass@k와 pass^k

강의에서는 반복 시도를 기반으로 한 두 지표를 소개합니다.

1) pass^k

K번 시도했을 때 모두 성공하는 확률
즉, 반복할수록 조건이 엄격해지므로 더 어려운 지표입니다.
의미:
답변의 일관성
시스템의 신뢰성
반복 실행 시 안정성

왜 중요한가?

예를 들어 사내 문서 에이전트가 질문마다 서로 다른 금액을 답하면, 정확도가 높아 보여도 신뢰도가 떨어집니다.
따라서 한 번 맞는 것보다, 여러 번 해도 항상 맞는 것이 중요할 수 있습니다.

2) pass@k

K번 시도했을 때 한 번이라도 성공할 확률
여러 개의 후보를 병렬로 생성하고, 그중 하나만 맞아도 되는 상황에 적합합니다.

직관적인 예시

코딩 에이전트
여러 코드 후보를 생성한 뒤, 그중 하나가 정답이면 됨
마케팅 문구 생성
여러 문구를 만든 뒤, 좋은 것 하나를 선택
수학 문제 풀이
여러 번 시도해서 한 번만 맞아도 되는 경우

pass@k의 배경: 코딩 에이전트 논문

pass@k는 OpenAI의 코드 생성 논문(코덱스 관련)에서 널리 알려졌습니다.
핵심 아이디어:
1개 샘플(pass@1) 은 정확도가 낮을 수 있음
하지만 100개 샘플(pass@100) 을 생성하면, 그중 정답이 포함될 확률이 크게 증가

강의에서 언급된 흐름

pass@1: 한 번만 시도했을 때 정확도 측정
pass@100: 100번 시도했을 때 한 번이라도 맞는지 측정
병렬 생성 후 내부적으로 평가/검증을 거쳐 사용자에게 전달하는 방식

pass^k의 배경: 고객지원 에이전트

pass^k는 고객지원(CS) 에이전트처럼 일관성이 매우 중요한 경우에 적합합니다.
강의에서는 Sierra라는 회사의 사례를 언급합니다.
환불, 교환, 정책 안내 등에서 답변이 매번 달라지면 안 됨
따라서 이런 영역에서는:
여러 번 시도해도 항상 신뢰 가능한 답변을 내는지 보는 것이 중요합니다.

두 지표의 활용 차이

pass@k가 적합한 경우

하나만 맞으면 되는 작업
예:
코드 생성
마케팅 문구 생성
후보 답안 생성

pass^k가 적합한 경우

매번 같은 품질과 정책 준수가 필요한 작업
예:
고객지원
사내 문서 QA
복지/환불/정책 안내

핵심 정리

Anthropic은 에이전트 평가를 다음 3가지로 봅니다.
코드베이스 기반 평가
모델 기반 그레이더
휴먼 그레이더
AI 에이전트는 비결정적이므로, 단일 실행보다 반복 평가가 중요합니다.
반복 평가의 대표 지표는:
pass@k: 여러 번 중 한 번이라도 성공할 확률
pass^k: 여러 번 시도했을 때 모두 성공할 확률
실제 서비스에서는 작업 특성에 따라 두 지표를 구분해 활용해야 합니다.

다음 단계

이어서 LangSmith를 활용해 이러한 평가를 어떻게 구현하는지 살펴볼 수 있습니다.