AI 에이전트 평가(Evaluation)를 꼭 해야 하나?
1. 평가를 꼭 해야 하는가?
꼭 필요한 것은 아니지만, 안 해도 되는 상황도 있음
•
서비스 초반에 빠른 릴리스가 더 중요할 때
•
사용자 피드백 기반 이터레이션이 우선일 때
•
특히 속도가 가장 중요한 경우에는 평가를 생략할 수 있음
그래도 평가가 중요한 이유
•
모델 성능이 좋아지면 에이전트 성능도 좋아질 가능성이 큼
•
프레임워크를 통해 모델 교체 자체는 비교적 쉬움
◦
예: GPT-4 계열에서 새 모델로 교체하는 것처럼 간단하게 바꿀 수 있음
•
하지만 평가 없이 모델을 바꾸면 실제 서비스 동작이 달라져 문제가 생길 수 있음
2. 평가가 없을 때 생기는 문제
모델 교체가 생각보다 어렵다
•
같은 프롬프트라도 모델마다 동작이 다를 수 있음
•
특히 복잡한 작업일수록 긴 프롬프트, XML, 마크다운 기반 지시문이 새 모델에서 잘 안 맞을 수 있음
실제 사례: 롤백 비용
•
공개된 사례처럼, 제대로 된 평가 없이 모델을 바꿨다가 롤백하는 일이 발생할 수 있음
•
롤백 비용이 크고, 사용자 불만이 누적되면 신뢰 회복이 더 어려움
사용자 이탈 리스크
•
한 번 나쁜 경험을 한 사용자는 다시 돌아오지 않을 수 있음
•
따라서 배포 전 평가 시스템이 중요함
3. 평가 시스템이 주는 가치
감이 아니라 수치 기반 의사결정
•
평가가 없으면 “잘 되는 것 같은데요?” 수준의 말밖에 못 함
•
엔지니어, PM, PO 모두 수치와 근거를 바탕으로 결정해야 함
•
평가 체계가 있으면:
◦
무엇이 좋아졌는지
◦
무엇이 나빠졌는지
◦
배포를 해도 되는지
를 판단할 수 있음
도입과 확산에도 도움
•
AI 서비스는 기존 업무를 대체하는 경우가 많아 현업 반감이 있을 수 있음
•
잘 만든 평가 시스템이 있으면:
◦
도입 시 신뢰를 얻기 쉽고
◦
현업과의 커뮤니케이션도 쉬워짐
•
POC 단계에서라도 정답지 기반 테스트가 있으면 협업이 훨씬 수월함
테스트 코드와 비슷한 역할
•
처음엔 귀찮고 느려 보여도,
•
장기적으로는 안정적인 운영과 효율성을 만들어 줌
4. 에이전트 평가의 두 가지 큰 축
4-1. 정성적 평가
사람(human)이 직접 평가하는 방식
•
장점:
◦
미묘한 뉘앙스, 창의성, 사용자 경험까지 판단 가능
◦
단순 정답 여부를 넘어 복합적인 평가가 가능
•
단점:
◦
비용이 비쌈
◦
시간이 많이 듦
◦
평가자 간 일관성 확보가 어려움
문제 예시
•
같은 답변도 부서나 평가자에 따라 점수가 달라질 수 있음
•
따라서 사람 평가만으로는 대규모 운영이 어려움
4-2. 정량적 평가
LLM as a Judge
•
*LLM(언어모델)**을 심판처럼 사용해 점수를 매기는 방식
•
사람이 만든 평가 기준과 프롬프트를 바탕으로 판단함
주의사항
•
LLM 평가 결과가 현업 전문가의 판단과 일치해야 함
•
예:
◦
LLM은 5점
◦
현업 전문가는 3점
•
이런 불일치가 많으면 신뢰할 수 없는 평가가 됨
핵심
•
LLM 심판은 그냥 쓰는 것이 아니라,
◦
평가 기준 설계
◦
프롬프트 설계
◦
현업 전문가의 기준과 정렬
이 필요함
5. 또 다른 평가 방식: Trajectory Evaluation
실행 경로를 평가하는 방법
•
*Trajectory(트라젝토리)**는 에이전트가 목표에 도달하기까지의 실행 경로를 의미함
•
단순히 최종 답변만 보는 것이 아니라,
◦
어떤 **도구(tool)**를 썼는지
◦
어떤 순서로 사용했는지
◦
어떤 **인수(arguments)**를 넣었는지
를 확인함
왜 중요한가?
•
답변만 맞으면 된다고 생각할 수 있지만, 실행 과정도 중요함
•
다음 문제를 잡아낼 수 있음:
◦
불필요한 도구 호출
◦
중복된 API 요청
◦
느린 응답
◦
도구 호출 실패 지점
◦
잘못된 인수 전달
◦
무한 루프
디버깅과 비용 최적화에 유리
•
어디서 실패했는지 추적하기 쉬움
•
유료 API를 과도하게 쓰는 문제를 발견할 수 있음
•
에이전트의 효율성과 안정성을 함께 볼 수 있음
6. 무엇으로 평가할 것인가? — Golden Dataset
골든 데이터셋이란?
•
정답이 명확한 평가용 데이터셋
•
에이전트가 잘 동작하는지 확인하는 기준 데이터
왜 사람이 만드는 것이 좋은가?
•
AI 에이전트가 대체하려는 업무는 보통 사람이 가장 잘 아는 일
•
정답지가 틀리면 평가도 틀어지므로,
정답 데이터의 정확성이 가장 중요함
•
AI가 데이터를 만들 수는 있지만,
◦
원하는 품질을 맞추기 위해 프롬프트를 계속 조정해야 할 수 있음
•
따라서 처음에는 사람이 만든 골든 데이터셋이 가장 신뢰할 수 있음
골든 데이터셋의 역할
•
엣지 케이스 검증
•
예외 케이스 검증
•
핵심 기능 검증
7. 시간이 부족할 때: 합성 데이터(Synthetic Data)
데이터 생성 보완 방법
•
사람이 만든 몇 개의 Q&A를 바탕으로
•
LLM이 표현만 바꾸거나 변형하여
•
더 많은 테스트 케이스를 만드는 방식
예시
밥 -> 식사
점심 -> 중식
Plain Text
복사
장점
•
대규모 테스트 케이스 확보 가능
•
언어모델 훈련과 데이터셋 확장에 자주 활용됨
참고
•
실제 대규모 모델 학습에서도 합성 데이터는 많이 사용됨
•
메타, 엔비디아 등의 사례처럼 데이터 생성 자동화가 중요한 흐름임
8. 강의 핵심 정리
•
AI 에이전트 평가를 무조건 해야 하는 것은 아니지만, 운영과 확장을 생각하면 매우 중요함
•
평가가 없으면 모델 교체, 디버깅, 롤백, 신뢰성 확보가 어려움
•
평가 방식은 크게:
◦
정성적 평가
◦
정량적 평가(LLM as a Judge)
◦
Trajectory 평가
로 나뉨
•
평가의 기반은 Golden Dataset
•
시간이 부족하면 Synthetic Data로 보완 가능
•
결국 목표는 감이 아닌 수치 기반 의사결정과 안정적인 에이전트 운영임