AI 에이전트 평가(Evaluation)를 꼭 해야하나?

Number

AI 에이전트 평가(Evaluation)를 꼭 해야 하나?

1. 평가를 꼭 해야 하는가?

꼭 필요한 것은 아니지만, 안 해도 되는 상황도 있음

•

서비스 초반에 빠른 릴리스가 더 중요할 때

•

사용자 피드백 기반 이터레이션이 우선일 때

•

특히 속도가 가장 중요한 경우에는 평가를 생략할 수 있음

그래도 평가가 중요한 이유

•

모델 성능이 좋아지면 에이전트 성능도 좋아질 가능성이 큼

•

프레임워크를 통해 모델 교체 자체는 비교적 쉬움

◦

예: GPT-4 계열에서 새 모델로 교체하는 것처럼 간단하게 바꿀 수 있음

•

하지만 평가 없이 모델을 바꾸면 실제 서비스 동작이 달라져 문제가 생길 수 있음

2. 평가가 없을 때 생기는 문제

모델 교체가 생각보다 어렵다

•

같은 프롬프트라도 모델마다 동작이 다를 수 있음

•

특히 복잡한 작업일수록 긴 프롬프트, XML, 마크다운 기반 지시문이 새 모델에서 잘 안 맞을 수 있음

실제 사례: 롤백 비용

•

공개된 사례처럼, 제대로 된 평가 없이 모델을 바꿨다가 롤백하는 일이 발생할 수 있음

•

롤백 비용이 크고, 사용자 불만이 누적되면 신뢰 회복이 더 어려움

사용자 이탈 리스크

•

한 번 나쁜 경험을 한 사용자는 다시 돌아오지 않을 수 있음

•

따라서 배포 전 평가 시스템이 중요함

3. 평가 시스템이 주는 가치

감이 아니라 수치 기반 의사결정

•

평가가 없으면 “잘 되는 것 같은데요?” 수준의 말밖에 못 함

•

엔지니어, PM, PO 모두 수치와 근거를 바탕으로 결정해야 함

•

평가 체계가 있으면:

◦

무엇이 좋아졌는지

◦

무엇이 나빠졌는지

◦

배포를 해도 되는지
를 판단할 수 있음

도입과 확산에도 도움

•

AI 서비스는 기존 업무를 대체하는 경우가 많아 현업 반감이 있을 수 있음

•

잘 만든 평가 시스템이 있으면:

◦

도입 시 신뢰를 얻기 쉽고

◦

현업과의 커뮤니케이션도 쉬워짐

•

POC 단계에서라도 정답지 기반 테스트가 있으면 협업이 훨씬 수월함

테스트 코드와 비슷한 역할

•

처음엔 귀찮고 느려 보여도,

•

장기적으로는 안정적인 운영과 효율성을 만들어 줌

4. 에이전트 평가의 두 가지 큰 축

4-1. 정성적 평가

사람(human)이 직접 평가하는 방식

•

장점:

◦

미묘한 뉘앙스, 창의성, 사용자 경험까지 판단 가능

◦

단순 정답 여부를 넘어 복합적인 평가가 가능

•

단점:

◦

비용이 비쌈

◦

시간이 많이 듦

◦

평가자 간 일관성 확보가 어려움

문제 예시

•

같은 답변도 부서나 평가자에 따라 점수가 달라질 수 있음

•

따라서 사람 평가만으로는 대규모 운영이 어려움

4-2. 정량적 평가

LLM as a Judge

•

*LLM(언어모델)**을 심판처럼 사용해 점수를 매기는 방식

•

사람이 만든 평가 기준과 프롬프트를 바탕으로 판단함

주의사항

•

LLM 평가 결과가 현업 전문가의 판단과 일치해야 함

•

예:

◦

LLM은 5점

◦

현업 전문가는 3점

•

이런 불일치가 많으면 신뢰할 수 없는 평가가 됨

핵심

•

LLM 심판은 그냥 쓰는 것이 아니라,

◦

평가 기준 설계

◦

프롬프트 설계

◦

현업 전문가의 기준과 정렬
이 필요함

5. 또 다른 평가 방식: Trajectory Evaluation

실행 경로를 평가하는 방법

•

*Trajectory(트라젝토리)**는 에이전트가 목표에 도달하기까지의 실행 경로를 의미함

•

단순히 최종 답변만 보는 것이 아니라,

◦

어떤 **도구(tool)**를 썼는지

◦

어떤 순서로 사용했는지

◦

어떤 **인수(arguments)**를 넣었는지
를 확인함

왜 중요한가?

•

답변만 맞으면 된다고 생각할 수 있지만, 실행 과정도 중요함

•

다음 문제를 잡아낼 수 있음:

◦

불필요한 도구 호출

◦

중복된 API 요청

◦

느린 응답

◦

도구 호출 실패 지점

◦

잘못된 인수 전달

◦

무한 루프

디버깅과 비용 최적화에 유리

•

어디서 실패했는지 추적하기 쉬움

•

유료 API를 과도하게 쓰는 문제를 발견할 수 있음

•

에이전트의 효율성과 안정성을 함께 볼 수 있음

6. 무엇으로 평가할 것인가? — Golden Dataset

골든 데이터셋이란?

•

정답이 명확한 평가용 데이터셋

•

에이전트가 잘 동작하는지 확인하는 기준 데이터

왜 사람이 만드는 것이 좋은가?

•

AI 에이전트가 대체하려는 업무는 보통 사람이 가장 잘 아는 일

•

정답지가 틀리면 평가도 틀어지므로,
정답 데이터의 정확성이 가장 중요함

•

AI가 데이터를 만들 수는 있지만,

◦

원하는 품질을 맞추기 위해 프롬프트를 계속 조정해야 할 수 있음

•

따라서 처음에는 사람이 만든 골든 데이터셋이 가장 신뢰할 수 있음

골든 데이터셋의 역할

•

엣지 케이스 검증

•

예외 케이스 검증

•

핵심 기능 검증

7. 시간이 부족할 때: 합성 데이터(Synthetic Data)

데이터 생성 보완 방법

•

사람이 만든 몇 개의 Q&A를 바탕으로

•

LLM이 표현만 바꾸거나 변형하여

•

더 많은 테스트 케이스를 만드는 방식

예시

밥 -> 식사
점심 -> 중식
Plain Text
복사

장점

•

대규모 테스트 케이스 확보 가능

•

언어모델 훈련과 데이터셋 확장에 자주 활용됨

참고

•

실제 대규모 모델 학습에서도 합성 데이터는 많이 사용됨

•

메타, 엔비디아 등의 사례처럼 데이터 생성 자동화가 중요한 흐름임

8. 강의 핵심 정리

•

AI 에이전트 평가를 무조건 해야 하는 것은 아니지만, 운영과 확장을 생각하면 매우 중요함

•

평가가 없으면 모델 교체, 디버깅, 롤백, 신뢰성 확보가 어려움

•

평가 방식은 크게:

◦

정성적 평가

◦

정량적 평가(LLM as a Judge)

◦

Trajectory 평가
로 나뉨

•

평가의 기반은 Golden Dataset

•

시간이 부족하면 Synthetic Data로 보완 가능

•

결국 목표는 감이 아닌 수치 기반 의사결정과 안정적인 에이전트 운영임