전체 내용 복습과 평가 시스템 구축 방향

Number

전체 내용 복습과 평가 시스템 구축 방향

1. 강의에서 다룬 핵심 평가 지표 복습

정확한 답변 생성 여부

•

처음에는 맞는지/틀린지를 True/False 또는 0/1 점수로 빠르게 확인하는 방식으로 평가했습니다.

•

이후에는 단순 정답 여부를 넘어서, 1점~5점 같은 구간형 점수를 통해 답변의 품질을 더 세밀하게 평가했습니다.

•

이를 통해 정확성(accuracy), groundness, conciseness(간결성) 같은 요소를 점검하고 개선했습니다.

문서 검색 및 활용 여부

•

에이전트가 필요한 문서를 잘 가져오는지를 평가했습니다.

•

사내 문서 에이전트 사례에서:

◦

문서를 바로 답변에 쓰지 않고 반드시 문서를 참고하도록 프롬프트 개선

◦

잘못된 문서 검색을 줄이기 위해 툴 자체를 수정

•

즉, retrieval quality가 중요한 평가 대상이었습니다.

도구 사용 및 실행 경로

•

에이전트가 의도한 도구를 잘 선택했는지를 평가했습니다.

•

또한 도구를 순서대로 올바르게 활용했는지를 추적했습니다.

•

실행 경로를 분석해:

◦

중복된 도구 사용

◦

비효율적인 호출

◦

불필요한 토큰 낭비
를 줄이도록 프롬프트를 개선했습니다.

pass@k / pass^k 지표

•

pass@k: 여러 번 시도했을 때 최초 1회라도 성공할 가능성

◦

주로 코딩 에이전트, 마케팅 문구 생성처럼 한 번의 성공이 중요한 경우에 적합

•

pass^k: K회 모두 성공하는지

◦

일관성 있는 답변이 중요한 경우에 적합

◦

예: 고객 지원(CS) 에이전트처럼 반복적으로 안정적인 성능이 필요한 경우

2. 평가의 목적은 “높은 점수”가 아님

오버피팅을 경계해야 함

•

평가 점수를 100% 맞추려는 식으로 프롬프트를 과하게 조정하면 오버피팅이 발생할 수 있습니다.

•

중요한 것은 평가 점수 자체가 아니라, 실제 서비스에서 가치를 제공하는지입니다.

평가의 진짜 목적

•

에이전트가:

◦

사용자에게 가치를 주는지

◦

배포할 만한 수준인지

◦

운영 가능한 서비스인지
를 판단하는 데 있습니다.

•

즉, 평가 점수는 목적이 아니라 의사결정을 돕는 도구입니다.

3. 어떤 지표를 선택해야 하는가

모든 지표를 다 볼 필요는 없음

•

강의에서 다룬 일곱 가지 지표를 전부 사용할 필요는 없습니다.

•

에이전트의 목적, 아키텍처, 실패 시나리오에 따라 필요한 지표가 달라집니다.

지표 선택 기준

•

에이전트가 무엇을 해결하는지

•

실패했을 때 어떤 문제가 생기는지

•

어떤 특성이 서비스 안정성에 중요한지

예시

•

CS 에이전트

◦

한 번만 맞추는 것이 아니라 항상 안정적으로 답해야 함

◦

따라서 pass@k보다는 pass^k나 일관성 관련 지표가 더 중요할 수 있음

•

논문 검색 에이전트

◦

아카이브(arXiv)를 쓰든, 태빌리티(Tavily)를 쓰든 결과만 좋으면 되는 경우가 있음

◦

하지만 비용이나 지연 시간이 중요하면 도구 선택 자체도 평가 대상이 될 수 있음

4. 평가 설계 시 고려해야 할 핵심 포인트

1) 에이전트의 목적

•

왜 이 에이전트를 만들었는지

•

사용자가 왜 이 에이전트를 써야 하는지

2) 실패 시나리오

•

잘못된 답변이 나오면 어떤 문제가 생기는지

•

실패 시 비용이 큰지, 작은지

3) 핵심 지표 선정

•

성능을 가장 잘 반영하는 핵심 지표를 선택해야 함

•

모든 것을 다 측정하는 것이 항상 좋은 것은 아님

4) 골든 데이터셋 구축

•

선택한 지표를 기반으로 Golden Dataset을 만들고

•

그 데이터셋으로 평가를 진행하는 방식이 중요함

5. 좋은 에이전트의 기준에 대한 관점

점수가 높다고 무조건 좋은 것은 아님

•

올바른 지표를 측정해야만 평가 결과가 의미가 있습니다.

•

예를 들어, 고객지원 에이전트는 한 번만 성공할 확률이 높다고 해서 좋은 것이 아닙니다.

•

중요한 것은 실제 사용 맥락에서 신뢰할 수 있는 성능입니다.

평가 전에 먼저 정의해야 할 것

•

성공이 무엇인지

•

신뢰할 수 있다는 것이 무엇인지

•

서비스 관점에서 허용 가능한 실패는 무엇인지

6. 마무리 및 향후 방향

•

앞으로도 새로운 평가 지표와 방법론이 계속 등장할 것입니다.

•

강의자는 업무에서 유용한 지표를 발견하면 강의 업데이트와 함께 공유할 예정이라고 했습니다.

•

이후에는 스킬을 활용해 에이전트를 만드는 강의도 준비할 계획이라고 언급했습니다.

7. 핵심 요약

•

평가의 목적은 점수 최적화가 아니라 서비스 가치 검증입니다.

•

에이전트의 목적, 실패 비용, 사용 맥락에 맞는 지표를 골라야 합니다.

•

모든 지표를 다 볼 필요는 없고, 핵심 지표와 골든 데이터셋에 집중하는 것이 중요합니다.

•

pass@k, pass^k는 에이전트 유형에 따라 다르게 해석해야 하며, 특히 일관성이 필요한 서비스에서는 pass^k가 더 중요할 수 있습니다.