Golden Dataset이란?

Number

Golden Dataset이란?

개요

•

골든 데이터셋(Golden Dataset)은 평가를 위한 정답지(ground truth) 역할을 하는 데이터셋입니다.

•

전통적인 머신러닝에서의 그라운드 트루스(ground truth)와 같은 개념으로 이해하면 됩니다.

•

AI 에이전트 평가에서는 주로 질문-답변(QA) 쌍 형태로 구성합니다.

골든 데이터셋의 의미

Ground Truth와의 관계

•

이미지 분류 예시에서 정답 라벨이 있는 것처럼,

◦

강아지 → 1

◦

고양이 → 0

•

이런 식의 정답값이 바로 ground truth입니다.

•

평가에서도 마찬가지로, “무엇이 올바른 답인가”를 기준으로 삼는 데이터가 필요합니다.

왜 질문-답변 형태인가?

•

에이전트가 수행하는 작업은 겉으로는 “업무 지시”처럼 보이지만, 실제로는 질문에 대한 답변 생성 문제로 바꿔볼 수 있습니다.

•

예:

◦

“이 문서를 요약해줘”

◦

“이 업무를 어떻게 처리해야 하나요?”

•

따라서 골든 데이터셋은 보통 질문과 모범 답변의 쌍으로 구성합니다.

질문-답변 방식이 효과적인 이유

자연어 처리와의 연결

•

Natural Language Decathlon 같은 연구는, 질문-답변 형식이 다양한 태스크 학습에 효과적이라는 점을 보여줬습니다.

•

하나의 모델이 감정분석, 요약, 질의응답 등 여러 작업을 Q&A 형태로 학습할 수 있었습니다.

•

이런 흐름이 이후 LLM의 발전에도 중요한 배경이 되었다고 볼 수 있습니다.

프롬프트도 질문형이 잘 동작함

•

강의에서는 실제로 프롬프트를 작성할 때도 질문형 표현이 잘 작동한다고 설명합니다.

•

예:

◦

“Summarize this.”

◦

“What is the summary?”

•

즉, 에이전트 평가 데이터셋뿐 아니라 프롬프트 설계에서도 질문-답변 구조가 유리합니다.

골든 데이터셋을 만드는 방법

1) 수작업

•

가장 좋은 방법은 현업 전문가가 직접 작성하는 것입니다.

•

이유:

◦

자신의 업무를 가장 잘 아는 사람은 결국 업무 담당자 본인이기 때문

◦

“무엇이 정답인지”를 가장 정확하게 판단할 수 있음

•

현업에서는 여러 사람이 모여서 중요한 업무 항목에 대한 질문 50개 정도를 만들고, 각 질문에 대한 정답 답변을 작성하는 방식으로 만들 수 있습니다.

2) AI를 활용한 생성

•

바쁜 현업에서는 수작업만으로 만들기 어려우므로, AI를 활용해 데이터셋을 생성하는 방법도 사용합니다.

•

강의에서는 다음 두 가지 방식을 소개합니다.

a. RAGAS 활용

•

RAGAS는 원래 RAG 평가에 쓰이는 라이브러리입니다.

•

내부에 Synthetic Test Data Generation 기능이 있어, PDF 같은 문서를 넣으면 평가용 데이터셋을 생성할 수 있습니다.

•

장점:

◦

자동화가 쉽다

◦

문서 기반 테스트 데이터 생성에 유용하다

•

단점:

◦

시간이 오래 걸릴 수 있다

b. 커스텀 프롬프트 활용

•

직접 골든 데이터셋 생성용 에이전트를 만들고, 커스텀 프롬프트로 데이터셋을 생성할 수 있습니다.

•

강의에서는 비교적 잘 동작하는 프롬프트를 사용해 시연합니다.

평가에서 골든 데이터셋을 어떻게 쓰는가

LLM as a Judge

•

골든 데이터셋을 기준으로 AI가 생성한 답변과 정답 답변을 비교합니다.

•

이때 LLM as a Judge를 사용해 점수를 매길 수 있습니다.

•

예:

◦

0~5점

◦

0~10점

•

각 질문에 대한 점수를 평균내어 전체 성능을 판단합니다.

프롬프트 튜닝

•

평가자 점수와 사람이 생각하는 점수가 비슷해질 때까지 프롬프트를 조정합니다.

•

즉, 골든 데이터셋은 단순한 테스트셋이 아니라 프롬프트 개선의 기준점 역할도 합니다.

만점이 항상 좋은 것은 아님

•

평가 점수가 100점 만점으로 너무 완벽하게 나오면 오히려 이상할 수 있습니다.

•

현실에서는 완벽한 서비스가 드물기 때문에,

◦

팀 기준에 맞는 점수 범위를 정하고

◦

예: 88점 이상, 93점 이상
같은 식으로 판단합니다.

LLM 평가와 코드 기반 평가의 병행

LLM이 필요한 경우

•

답변의 의미, 품질, 적절성 등을 평가할 때는 LLM as a Judge가 유용합니다.

코드로 평가하는 경우

•

도구 호출(tool calling)처럼 결과가 문자열 기반으로 단순 비교 가능한 경우에는,

◦

굳이 LLM을 쓰지 않고

◦

코드로 직접 비교하는 편이 더 효율적입니다.

•

이유:

◦

불필요한 토큰 비용을 줄일 수 있음

◦

비교 기준이 명확함

에이전트 평가에서 확인해야 할 것

•

골든 데이터셋을 통해 다음을 검증합니다:

◦

답변이 정확한가

◦

잘못된 정보가 섞여 있는가

◦

불필요한 내용을 말하지는 않는가

◦

의도한 대로 에이전트가 동작했는가

•

즉, 단순히 “답변 품질”뿐 아니라 에이전트의 행동과 실행 결과까지 평가합니다.

핵심 요약

•

골든 데이터셋 = 평가용 정답지

•

보통 질문-답변 쌍으로 구성

•

가장 이상적인 방식은 현업 전문가의 수작업 제작

•

필요하면 RAGAS나 커스텀 프롬프트로 생성 가능

•

평가 시에는 LLM as a Judge 또는 코드 기반 비교를 함께 활용

•

최종 목표는 답변의 정확성과 에이전트의 의도한 동작 여부를 검증하는 것