Search

AI 에이전트 평가(Evaluation)를 꼭 해야하나?

Number
3

AI 에이전트 평가(Evaluation)를 꼭 해야 하나?

1. 평가를 꼭 해야 하는가?

꼭 필요한 것은 아니지만, 안 해도 되는 상황도 있음

서비스 초반에 빠른 릴리스가 더 중요할 때
사용자 피드백 기반 이터레이션이 우선일 때
특히 속도가 가장 중요한 경우에는 평가를 생략할 수 있음

그래도 평가가 중요한 이유

모델 성능이 좋아지면 에이전트 성능도 좋아질 가능성이 큼
프레임워크를 통해 모델 교체 자체는 비교적 쉬움
예: GPT-4 계열에서 새 모델로 교체하는 것처럼 간단하게 바꿀 수 있음
하지만 평가 없이 모델을 바꾸면 실제 서비스 동작이 달라져 문제가 생길 수 있음

2. 평가가 없을 때 생기는 문제

모델 교체가 생각보다 어렵다

같은 프롬프트라도 모델마다 동작이 다를 수 있음
특히 복잡한 작업일수록 긴 프롬프트, XML, 마크다운 기반 지시문이 새 모델에서 잘 안 맞을 수 있음

실제 사례: 롤백 비용

공개된 사례처럼, 제대로 된 평가 없이 모델을 바꿨다가 롤백하는 일이 발생할 수 있음
롤백 비용이 크고, 사용자 불만이 누적되면 신뢰 회복이 더 어려움

사용자 이탈 리스크

한 번 나쁜 경험을 한 사용자는 다시 돌아오지 않을 수 있음
따라서 배포 전 평가 시스템이 중요함

3. 평가 시스템이 주는 가치

감이 아니라 수치 기반 의사결정

평가가 없으면 “잘 되는 것 같은데요?” 수준의 말밖에 못 함
엔지니어, PM, PO 모두 수치와 근거를 바탕으로 결정해야 함
평가 체계가 있으면:
무엇이 좋아졌는지
무엇이 나빠졌는지
배포를 해도 되는지 를 판단할 수 있음

도입과 확산에도 도움

AI 서비스는 기존 업무를 대체하는 경우가 많아 현업 반감이 있을 수 있음
잘 만든 평가 시스템이 있으면:
도입 시 신뢰를 얻기 쉽고
현업과의 커뮤니케이션도 쉬워짐
POC 단계에서라도 정답지 기반 테스트가 있으면 협업이 훨씬 수월함

테스트 코드와 비슷한 역할

처음엔 귀찮고 느려 보여도,
장기적으로는 안정적인 운영과 효율성을 만들어 줌

4. 에이전트 평가의 두 가지 큰 축

4-1. 정성적 평가

사람(human)이 직접 평가하는 방식

장점:
미묘한 뉘앙스, 창의성, 사용자 경험까지 판단 가능
단순 정답 여부를 넘어 복합적인 평가가 가능
단점:
비용이 비쌈
시간이 많이 듦
평가자 간 일관성 확보가 어려움

문제 예시

같은 답변도 부서나 평가자에 따라 점수가 달라질 수 있음
따라서 사람 평가만으로는 대규모 운영이 어려움

4-2. 정량적 평가

LLM as a Judge

*LLM(언어모델)**을 심판처럼 사용해 점수를 매기는 방식
사람이 만든 평가 기준프롬프트를 바탕으로 판단함

주의사항

LLM 평가 결과가 현업 전문가의 판단과 일치해야 함
예:
LLM은 5점
현업 전문가는 3점
이런 불일치가 많으면 신뢰할 수 없는 평가가 됨

핵심

LLM 심판은 그냥 쓰는 것이 아니라,
평가 기준 설계
프롬프트 설계
현업 전문가의 기준과 정렬 이 필요함

5. 또 다른 평가 방식: Trajectory Evaluation

실행 경로를 평가하는 방법

*Trajectory(트라젝토리)**는 에이전트가 목표에 도달하기까지의 실행 경로를 의미함
단순히 최종 답변만 보는 것이 아니라,
어떤 **도구(tool)**를 썼는지
어떤 순서로 사용했는지
어떤 **인수(arguments)**를 넣었는지 를 확인함

왜 중요한가?

답변만 맞으면 된다고 생각할 수 있지만, 실행 과정도 중요함
다음 문제를 잡아낼 수 있음:
불필요한 도구 호출
중복된 API 요청
느린 응답
도구 호출 실패 지점
잘못된 인수 전달
무한 루프

디버깅과 비용 최적화에 유리

어디서 실패했는지 추적하기 쉬움
유료 API를 과도하게 쓰는 문제를 발견할 수 있음
에이전트의 효율성안정성을 함께 볼 수 있음

6. 무엇으로 평가할 것인가? — Golden Dataset

골든 데이터셋이란?

정답이 명확한 평가용 데이터셋
에이전트가 잘 동작하는지 확인하는 기준 데이터

왜 사람이 만드는 것이 좋은가?

AI 에이전트가 대체하려는 업무는 보통 사람이 가장 잘 아는 일
정답지가 틀리면 평가도 틀어지므로, 정답 데이터의 정확성이 가장 중요함
AI가 데이터를 만들 수는 있지만,
원하는 품질을 맞추기 위해 프롬프트를 계속 조정해야 할 수 있음
따라서 처음에는 사람이 만든 골든 데이터셋이 가장 신뢰할 수 있음

골든 데이터셋의 역할

엣지 케이스 검증
예외 케이스 검증
핵심 기능 검증

7. 시간이 부족할 때: 합성 데이터(Synthetic Data)

데이터 생성 보완 방법

사람이 만든 몇 개의 Q&A를 바탕으로
LLM이 표현만 바꾸거나 변형하여
더 많은 테스트 케이스를 만드는 방식

예시

밥 -> 식사 점심 -> 중식
Plain Text
복사

장점

대규모 테스트 케이스 확보 가능
언어모델 훈련과 데이터셋 확장에 자주 활용됨

참고

실제 대규모 모델 학습에서도 합성 데이터는 많이 사용됨
메타, 엔비디아 등의 사례처럼 데이터 생성 자동화가 중요한 흐름임

8. 강의 핵심 정리

AI 에이전트 평가를 무조건 해야 하는 것은 아니지만, 운영과 확장을 생각하면 매우 중요함
평가가 없으면 모델 교체, 디버깅, 롤백, 신뢰성 확보가 어려움
평가 방식은 크게:
정성적 평가
정량적 평가(LLM as a Judge)
Trajectory 평가 로 나뉨
평가의 기반은 Golden Dataset
시간이 부족하면 Synthetic Data로 보완 가능
결국 목표는 감이 아닌 수치 기반 의사결정안정적인 에이전트 운영