Search

전체 내용 복습과 평가 시스템 구축 방향

Number
18

전체 내용 복습과 평가 시스템 구축 방향

1. 강의에서 다룬 핵심 평가 지표 복습

정확한 답변 생성 여부

처음에는 맞는지/틀린지True/False 또는 0/1 점수로 빠르게 확인하는 방식으로 평가했습니다.
이후에는 단순 정답 여부를 넘어서, 1점~5점 같은 구간형 점수를 통해 답변의 품질을 더 세밀하게 평가했습니다.
이를 통해 정확성(accuracy), groundness, conciseness(간결성) 같은 요소를 점검하고 개선했습니다.

문서 검색 및 활용 여부

에이전트가 필요한 문서를 잘 가져오는지를 평가했습니다.
사내 문서 에이전트 사례에서:
문서를 바로 답변에 쓰지 않고 반드시 문서를 참고하도록 프롬프트 개선
잘못된 문서 검색을 줄이기 위해 툴 자체를 수정
즉, retrieval quality가 중요한 평가 대상이었습니다.

도구 사용 및 실행 경로

에이전트가 의도한 도구를 잘 선택했는지를 평가했습니다.
또한 도구를 순서대로 올바르게 활용했는지를 추적했습니다.
실행 경로를 분석해:
중복된 도구 사용
비효율적인 호출
불필요한 토큰 낭비 를 줄이도록 프롬프트를 개선했습니다.

pass@k / pass^k 지표

pass@k: 여러 번 시도했을 때 최초 1회라도 성공할 가능성
주로 코딩 에이전트, 마케팅 문구 생성처럼 한 번의 성공이 중요한 경우에 적합
pass^k: K회 모두 성공하는지
일관성 있는 답변이 중요한 경우에 적합
예: 고객 지원(CS) 에이전트처럼 반복적으로 안정적인 성능이 필요한 경우

2. 평가의 목적은 “높은 점수”가 아님

오버피팅을 경계해야 함

평가 점수를 100% 맞추려는 식으로 프롬프트를 과하게 조정하면 오버피팅이 발생할 수 있습니다.
중요한 것은 평가 점수 자체가 아니라, 실제 서비스에서 가치를 제공하는지입니다.

평가의 진짜 목적

에이전트가:
사용자에게 가치를 주는지
배포할 만한 수준인지
운영 가능한 서비스인지 를 판단하는 데 있습니다.
즉, 평가 점수는 목적이 아니라 의사결정을 돕는 도구입니다.

3. 어떤 지표를 선택해야 하는가

모든 지표를 다 볼 필요는 없음

강의에서 다룬 일곱 가지 지표를 전부 사용할 필요는 없습니다.
에이전트의 목적, 아키텍처, 실패 시나리오에 따라 필요한 지표가 달라집니다.

지표 선택 기준

에이전트가 무엇을 해결하는지
실패했을 때 어떤 문제가 생기는지
어떤 특성이 서비스 안정성에 중요한지

예시

CS 에이전트
한 번만 맞추는 것이 아니라 항상 안정적으로 답해야 함
따라서 pass@k보다는 pass^k나 일관성 관련 지표가 더 중요할 수 있음
논문 검색 에이전트
아카이브(arXiv)를 쓰든, 태빌리티(Tavily)를 쓰든 결과만 좋으면 되는 경우가 있음
하지만 비용이나 지연 시간이 중요하면 도구 선택 자체도 평가 대상이 될 수 있음

4. 평가 설계 시 고려해야 할 핵심 포인트

1) 에이전트의 목적

왜 이 에이전트를 만들었는지
사용자가 왜 이 에이전트를 써야 하는지

2) 실패 시나리오

잘못된 답변이 나오면 어떤 문제가 생기는지
실패 시 비용이 큰지, 작은지

3) 핵심 지표 선정

성능을 가장 잘 반영하는 핵심 지표를 선택해야 함
모든 것을 다 측정하는 것이 항상 좋은 것은 아님

4) 골든 데이터셋 구축

선택한 지표를 기반으로 Golden Dataset을 만들고
그 데이터셋으로 평가를 진행하는 방식이 중요함

5. 좋은 에이전트의 기준에 대한 관점

점수가 높다고 무조건 좋은 것은 아님

올바른 지표를 측정해야만 평가 결과가 의미가 있습니다.
예를 들어, 고객지원 에이전트는 한 번만 성공할 확률이 높다고 해서 좋은 것이 아닙니다.
중요한 것은 실제 사용 맥락에서 신뢰할 수 있는 성능입니다.

평가 전에 먼저 정의해야 할 것

성공이 무엇인지
신뢰할 수 있다는 것이 무엇인지
서비스 관점에서 허용 가능한 실패는 무엇인지

6. 마무리 및 향후 방향

앞으로도 새로운 평가 지표방법론이 계속 등장할 것입니다.
강의자는 업무에서 유용한 지표를 발견하면 강의 업데이트와 함께 공유할 예정이라고 했습니다.
이후에는 스킬을 활용해 에이전트를 만드는 강의도 준비할 계획이라고 언급했습니다.

7. 핵심 요약

평가의 목적은 점수 최적화가 아니라 서비스 가치 검증입니다.
에이전트의 목적, 실패 비용, 사용 맥락에 맞는 지표를 골라야 합니다.
모든 지표를 다 볼 필요는 없고, 핵심 지표와 골든 데이터셋에 집중하는 것이 중요합니다.
pass@k, pass^k는 에이전트 유형에 따라 다르게 해석해야 하며, 특히 일관성이 필요한 서비스에서는 pass^k가 더 중요할 수 있습니다.