Golden Dataset이란?
개요
•
골든 데이터셋(Golden Dataset)은 평가를 위한 정답지(ground truth) 역할을 하는 데이터셋입니다.
•
전통적인 머신러닝에서의 그라운드 트루스(ground truth)와 같은 개념으로 이해하면 됩니다.
•
AI 에이전트 평가에서는 주로 질문-답변(QA) 쌍 형태로 구성합니다.
골든 데이터셋의 의미
Ground Truth와의 관계
•
이미지 분류 예시에서 정답 라벨이 있는 것처럼,
◦
강아지 → 1
◦
고양이 → 0
•
이런 식의 정답값이 바로 ground truth입니다.
•
평가에서도 마찬가지로, “무엇이 올바른 답인가”를 기준으로 삼는 데이터가 필요합니다.
왜 질문-답변 형태인가?
•
에이전트가 수행하는 작업은 겉으로는 “업무 지시”처럼 보이지만, 실제로는 질문에 대한 답변 생성 문제로 바꿔볼 수 있습니다.
•
예:
◦
“이 문서를 요약해줘”
◦
“이 업무를 어떻게 처리해야 하나요?”
•
따라서 골든 데이터셋은 보통 질문과 모범 답변의 쌍으로 구성합니다.
질문-답변 방식이 효과적인 이유
자연어 처리와의 연결
•
Natural Language Decathlon
같은 연구는, 질문-답변 형식이 다양한 태스크 학습에 효과적이라는 점을 보여줬습니다.
•
하나의 모델이 감정분석, 요약, 질의응답 등 여러 작업을 Q&A 형태로 학습할 수 있었습니다.
•
이런 흐름이 이후 LLM의 발전에도 중요한 배경이 되었다고 볼 수 있습니다.
프롬프트도 질문형이 잘 동작함
•
강의에서는 실제로 프롬프트를 작성할 때도 질문형 표현이 잘 작동한다고 설명합니다.
•
예:
◦
“Summarize this.”
◦
“What is the summary?”
•
즉, 에이전트 평가 데이터셋뿐 아니라 프롬프트 설계에서도 질문-답변 구조가 유리합니다.
골든 데이터셋을 만드는 방법
1) 수작업
•
가장 좋은 방법은 현업 전문가가 직접 작성하는 것입니다.
•
이유:
◦
자신의 업무를 가장 잘 아는 사람은 결국 업무 담당자 본인이기 때문
◦
“무엇이 정답인지”를 가장 정확하게 판단할 수 있음
•
현업에서는 여러 사람이 모여서 중요한 업무 항목에 대한 질문 50개 정도를 만들고, 각 질문에 대한 정답 답변을 작성하는 방식으로 만들 수 있습니다.
2) AI를 활용한 생성
•
바쁜 현업에서는 수작업만으로 만들기 어려우므로, AI를 활용해 데이터셋을 생성하는 방법도 사용합니다.
•
강의에서는 다음 두 가지 방식을 소개합니다.
a. RAGAS 활용
•
RAGAS는 원래 RAG 평가에 쓰이는 라이브러리입니다.
•
내부에 Synthetic Test Data Generation 기능이 있어, PDF 같은 문서를 넣으면 평가용 데이터셋을 생성할 수 있습니다.
•
장점:
◦
자동화가 쉽다
◦
문서 기반 테스트 데이터 생성에 유용하다
•
단점:
◦
시간이 오래 걸릴 수 있다
b. 커스텀 프롬프트 활용
•
직접 골든 데이터셋 생성용 에이전트를 만들고, 커스텀 프롬프트로 데이터셋을 생성할 수 있습니다.
•
강의에서는 비교적 잘 동작하는 프롬프트를 사용해 시연합니다.
평가에서 골든 데이터셋을 어떻게 쓰는가
LLM as a Judge
•
골든 데이터셋을 기준으로 AI가 생성한 답변과 정답 답변을 비교합니다.
•
이때 LLM as a Judge를 사용해 점수를 매길 수 있습니다.
•
예:
◦
0~5점
◦
0~10점
•
각 질문에 대한 점수를 평균내어 전체 성능을 판단합니다.
프롬프트 튜닝
•
평가자 점수와 사람이 생각하는 점수가 비슷해질 때까지 프롬프트를 조정합니다.
•
즉, 골든 데이터셋은 단순한 테스트셋이 아니라 프롬프트 개선의 기준점 역할도 합니다.
만점이 항상 좋은 것은 아님
•
평가 점수가 100점 만점으로 너무 완벽하게 나오면 오히려 이상할 수 있습니다.
•
현실에서는 완벽한 서비스가 드물기 때문에,
◦
팀 기준에 맞는 점수 범위를 정하고
◦
예: 88점 이상, 93점 이상
같은 식으로 판단합니다.
LLM 평가와 코드 기반 평가의 병행
LLM이 필요한 경우
•
답변의 의미, 품질, 적절성 등을 평가할 때는 LLM as a Judge가 유용합니다.
코드로 평가하는 경우
•
도구 호출(tool calling)처럼 결과가 문자열 기반으로 단순 비교 가능한 경우에는,
◦
굳이 LLM을 쓰지 않고
◦
코드로 직접 비교하는 편이 더 효율적입니다.
•
이유:
◦
불필요한 토큰 비용을 줄일 수 있음
◦
비교 기준이 명확함
에이전트 평가에서 확인해야 할 것
•
골든 데이터셋을 통해 다음을 검증합니다:
◦
답변이 정확한가
◦
잘못된 정보가 섞여 있는가
◦
불필요한 내용을 말하지는 않는가
◦
의도한 대로 에이전트가 동작했는가
•
즉, 단순히 “답변 품질”뿐 아니라 에이전트의 행동과 실행 결과까지 평가합니다.
핵심 요약
•
골든 데이터셋 = 평가용 정답지
•
보통 질문-답변 쌍으로 구성
•
가장 이상적인 방식은 현업 전문가의 수작업 제작
•
필요하면 RAGAS나 커스텀 프롬프트로 생성 가능
•
평가 시에는 LLM as a Judge 또는 코드 기반 비교를 함께 활용
•
최종 목표는 답변의 정확성과 에이전트의 의도한 동작 여부를 검증하는 것