Anthropic에서 권장하는 에이전트 평가 지표

Number

Anthropic에서 권장하는 에이전트 평가 지표

개요

•

이번 강의는 Anthropic(엔스로픽) 이 공개한 에이전트 평가 방법론을 소개합니다.

•

특히 AI 에이전트의 비결정성(non-determinism) 때문에, 단일 실행만으로는 부족하고 여러 번 시도한 결과를 함께 평가해야 한다는 점을 강조합니다.

Anthropic이 말하는 3가지 평가 방식

Anthropic 관점에서의 에이전트 평가는 크게 3가지로 나뉩니다.

1) 코드베이스 기반 평가

코드/로직 수준에서 에이전트의 동작을 직접 검증하는 방식입니다.

•

String Match Check

◦

문서 검색/검증 상황에서 원하는 문서를 제대로 가져왔는지 문자열 비교로 확인

•

Tool Call Verification

◦

에이전트가 올바른 도구(tool) 를 사용했는지 검증

•

Transcript Analysis

◦

어떤 방식으로 답변을 만들었는지, 턴 수(turns) 와 토큰 사용량 등을 분석

◦

강의에서는 이를 trajectory eval 관점으로 설명함

2) 모델 기반 그레이더(Model-based Grader)

LLM 자체를 평가자로 사용하는 방식입니다.

•

LLM as Judge

◦

모델이 다른 모델의 출력을 채점

•

Rubric-based Scoring

◦

1~5점 같은 기준을 미리 정의해 점수화

•

Reference-based Evaluation

◦

골든 데이터셋(Golden Dataset) 을 만들고, 이를 기준으로 성능 평가

3) 휴먼 그레이더(Human Grader)

사람이 직접 평가하는 방식입니다.

•

가장 정확할 수 있음

•

특히 도메인 전문가가 평가하면 신뢰도가 높음

•

하지만:

◦

비용이 높고

◦

시간이 오래 걸려

◦

실제 운영에서는 자주 쓰기 어렵습니다

왜 여러 번 평가해야 하는가: 비결정성

•

LLM은 temperature를 0으로 설정해도 완전히 동일한 답을 보장할 수 없습니다.

•

따라서 에이전트 평가는 한 번의 실행(single run) 이 아니라, 여러 번 반복 실행(K번 시도) 을 통해 안정성과 일관성을 봐야 합니다.

반복 실행 기반 지표: pass@k와 pass^k

강의에서는 반복 시도를 기반으로 한 두 지표를 소개합니다.

1) pass^k

•

K번 시도했을 때 모두 성공하는 확률

•

즉, 반복할수록 조건이 엄격해지므로 더 어려운 지표입니다.

•

의미:

◦

답변의 일관성

◦

시스템의 신뢰성

◦

반복 실행 시 안정성

왜 중요한가?

•

예를 들어 사내 문서 에이전트가 질문마다 서로 다른 금액을 답하면, 정확도가 높아 보여도 신뢰도가 떨어집니다.

•

따라서 한 번 맞는 것보다, 여러 번 해도 항상 맞는 것이 중요할 수 있습니다.

2) pass@k

•

K번 시도했을 때 한 번이라도 성공할 확률

•

여러 개의 후보를 병렬로 생성하고, 그중 하나만 맞아도 되는 상황에 적합합니다.

직관적인 예시

•

코딩 에이전트

◦

여러 코드 후보를 생성한 뒤, 그중 하나가 정답이면 됨

•

마케팅 문구 생성

◦

여러 문구를 만든 뒤, 좋은 것 하나를 선택

•

수학 문제 풀이

◦

여러 번 시도해서 한 번만 맞아도 되는 경우

pass@k의 배경: 코딩 에이전트 논문

•

pass@k는 OpenAI의 코드 생성 논문(코덱스 관련)에서 널리 알려졌습니다.

•

핵심 아이디어:

◦

1개 샘플(pass@1) 은 정확도가 낮을 수 있음

◦

하지만 100개 샘플(pass@100) 을 생성하면, 그중 정답이 포함될 확률이 크게 증가

강의에서 언급된 흐름

•

pass@1: 한 번만 시도했을 때 정확도 측정

•

pass@100: 100번 시도했을 때 한 번이라도 맞는지 측정

•

병렬 생성 후 내부적으로 평가/검증을 거쳐 사용자에게 전달하는 방식

pass^k의 배경: 고객지원 에이전트

•

pass^k는 고객지원(CS) 에이전트처럼 일관성이 매우 중요한 경우에 적합합니다.

•

강의에서는 Sierra라는 회사의 사례를 언급합니다.

◦

환불, 교환, 정책 안내 등에서 답변이 매번 달라지면 안 됨

•

따라서 이런 영역에서는:

◦

여러 번 시도해도 항상 신뢰 가능한 답변을 내는지 보는 것이 중요합니다.

두 지표의 활용 차이

pass@k가 적합한 경우

•

하나만 맞으면 되는 작업

•

예:

◦

코드 생성

◦

마케팅 문구 생성

◦

후보 답안 생성

pass^k가 적합한 경우

•

매번 같은 품질과 정책 준수가 필요한 작업

•

예:

◦

고객지원

◦

사내 문서 QA

◦

복지/환불/정책 안내

핵심 정리

•

Anthropic은 에이전트 평가를 다음 3가지로 봅니다.

◦

코드베이스 기반 평가

◦

모델 기반 그레이더

◦

휴먼 그레이더

•

AI 에이전트는 비결정적이므로, 단일 실행보다 반복 평가가 중요합니다.

•

반복 평가의 대표 지표는:

◦

pass@k: 여러 번 중 한 번이라도 성공할 확률

◦

pass^k: 여러 번 시도했을 때 모두 성공할 확률

•

실제 서비스에서는 작업 특성에 따라 두 지표를 구분해 활용해야 합니다.

다음 단계

•

이어서 LangSmith를 활용해 이러한 평가를 어떻게 구현하는지 살펴볼 수 있습니다.