Search

Golden Dataset이란?

Number
4

Golden Dataset이란?

개요

골든 데이터셋(Golden Dataset)은 평가를 위한 정답지(ground truth) 역할을 하는 데이터셋입니다.
전통적인 머신러닝에서의 그라운드 트루스(ground truth)와 같은 개념으로 이해하면 됩니다.
AI 에이전트 평가에서는 주로 질문-답변(QA) 쌍 형태로 구성합니다.

골든 데이터셋의 의미

Ground Truth와의 관계

이미지 분류 예시에서 정답 라벨이 있는 것처럼,
강아지 → 1
고양이 → 0
이런 식의 정답값이 바로 ground truth입니다.
평가에서도 마찬가지로, “무엇이 올바른 답인가”를 기준으로 삼는 데이터가 필요합니다.

왜 질문-답변 형태인가?

에이전트가 수행하는 작업은 겉으로는 “업무 지시”처럼 보이지만, 실제로는 질문에 대한 답변 생성 문제로 바꿔볼 수 있습니다.
예:
“이 문서를 요약해줘”
“이 업무를 어떻게 처리해야 하나요?”
따라서 골든 데이터셋은 보통 질문과 모범 답변의 쌍으로 구성합니다.

질문-답변 방식이 효과적인 이유

자연어 처리와의 연결

하나의 모델이 감정분석, 요약, 질의응답 등 여러 작업을 Q&A 형태로 학습할 수 있었습니다.
이런 흐름이 이후 LLM의 발전에도 중요한 배경이 되었다고 볼 수 있습니다.

프롬프트도 질문형이 잘 동작함

강의에서는 실제로 프롬프트를 작성할 때도 질문형 표현이 잘 작동한다고 설명합니다.
예:
“Summarize this.”
“What is the summary?”
즉, 에이전트 평가 데이터셋뿐 아니라 프롬프트 설계에서도 질문-답변 구조가 유리합니다.

골든 데이터셋을 만드는 방법

1) 수작업

가장 좋은 방법은 현업 전문가가 직접 작성하는 것입니다.
이유:
자신의 업무를 가장 잘 아는 사람은 결국 업무 담당자 본인이기 때문
“무엇이 정답인지”를 가장 정확하게 판단할 수 있음
현업에서는 여러 사람이 모여서 중요한 업무 항목에 대한 질문 50개 정도를 만들고, 각 질문에 대한 정답 답변을 작성하는 방식으로 만들 수 있습니다.

2) AI를 활용한 생성

바쁜 현업에서는 수작업만으로 만들기 어려우므로, AI를 활용해 데이터셋을 생성하는 방법도 사용합니다.
강의에서는 다음 두 가지 방식을 소개합니다.

a. RAGAS 활용

RAGAS는 원래 RAG 평가에 쓰이는 라이브러리입니다.
내부에 Synthetic Test Data Generation 기능이 있어, PDF 같은 문서를 넣으면 평가용 데이터셋을 생성할 수 있습니다.
장점:
자동화가 쉽다
문서 기반 테스트 데이터 생성에 유용하다
단점:
시간이 오래 걸릴 수 있다

b. 커스텀 프롬프트 활용

직접 골든 데이터셋 생성용 에이전트를 만들고, 커스텀 프롬프트로 데이터셋을 생성할 수 있습니다.
강의에서는 비교적 잘 동작하는 프롬프트를 사용해 시연합니다.

평가에서 골든 데이터셋을 어떻게 쓰는가

LLM as a Judge

골든 데이터셋을 기준으로 AI가 생성한 답변정답 답변을 비교합니다.
이때 LLM as a Judge를 사용해 점수를 매길 수 있습니다.
예:
0~5점
0~10점
각 질문에 대한 점수를 평균내어 전체 성능을 판단합니다.

프롬프트 튜닝

평가자 점수와 사람이 생각하는 점수가 비슷해질 때까지 프롬프트를 조정합니다.
즉, 골든 데이터셋은 단순한 테스트셋이 아니라 프롬프트 개선의 기준점 역할도 합니다.

만점이 항상 좋은 것은 아님

평가 점수가 100점 만점으로 너무 완벽하게 나오면 오히려 이상할 수 있습니다.
현실에서는 완벽한 서비스가 드물기 때문에,
팀 기준에 맞는 점수 범위를 정하고
예: 88점 이상, 93점 이상 같은 식으로 판단합니다.

LLM 평가와 코드 기반 평가의 병행

LLM이 필요한 경우

답변의 의미, 품질, 적절성 등을 평가할 때는 LLM as a Judge가 유용합니다.

코드로 평가하는 경우

도구 호출(tool calling)처럼 결과가 문자열 기반으로 단순 비교 가능한 경우에는,
굳이 LLM을 쓰지 않고
코드로 직접 비교하는 편이 더 효율적입니다.
이유:
불필요한 토큰 비용을 줄일 수 있음
비교 기준이 명확함

에이전트 평가에서 확인해야 할 것

골든 데이터셋을 통해 다음을 검증합니다:
답변이 정확한가
잘못된 정보가 섞여 있는가
불필요한 내용을 말하지는 않는가
의도한 대로 에이전트가 동작했는가
즉, 단순히 “답변 품질”뿐 아니라 에이전트의 행동과 실행 결과까지 평가합니다.

핵심 요약

골든 데이터셋 = 평가용 정답지
보통 질문-답변 쌍으로 구성
가장 이상적인 방식은 현업 전문가의 수작업 제작
필요하면 RAGAS커스텀 프롬프트로 생성 가능
평가 시에는 LLM as a Judge 또는 코드 기반 비교를 함께 활용
최종 목표는 답변의 정확성에이전트의 의도한 동작 여부를 검증하는 것