Duo 2.0 – Long Conversation Reliability 평가 프레임워크 개발

Ability 1. Ambiguous Query 대응 평가: 사용자의 질의가 불완전하거나 해석 가능한 의미가 복수로 존재하는 상황에서, LLM이 모호성을 정확히 식별하고 적절한 명확화 질문 또는 응답 전략을 수행하는 능력을 평가하는 것을 목표로 한다. 이를 위해 모호 질의 유형별 평가 데이터셋과 정량 지표를 구축하여 실제 서비스 환경에서의 질의 해석 신뢰성을 높이고자 한다.
Ability 2. Long / Complex / Noisy Context 평가: 장문·복합·노이즈 포함 대화 문맥에서, LLM이 핵심 정보를 안정적으로 추적하고 필요한 근거를 바탕으로 일관된 응답을 생성하는 능력을 평가하는 것을 목표로 한다. 이를 위해 긴 문맥 이해, 정보 선택, 대화 이력 활용, 오류 전파 억제 성능을 측정할 수 있는 평가 프레임워크를 구축하고자 한다.
월간 리포트 발행: LLM 안전성, 신뢰성, 평가 방법론과 관련된 최신 연구 및 산업 동향을 정기적으로 조사·정리하여 월간 리포트 형태로 발행하는 것을 목표로 한다. 이를 통해 프로젝트 수행에 필요한 기술 흐름을 지속적으로 점검하고, 평가 프레임워크 설계와 서비스 적용 방향에 반영할 수 있는 기반을 마련하고자 한다.

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호