- 교내 연구 및 산학 협력 기록에 기반한 검색 필요 데이터 정제
- 교내외 예상 서비스 시나리오에 기반한 수준별 검색 질의 데이터 생성
- 한국어 및 영어 기록에 적합한 수준별 검색 대응 모델 훈련
1. 교내 연구 및 산학 협력 기록에 기반한 검색 필요 데이터 정제
: 본 프로젝트에서는 서울대학교 공과대학 내 연구 및 산학 협력 기록에 기반한 검색 DB를 구축한다. 해당 DB는 검색 모델 훈련 및 검색 결과 제공을 위해 필요한 데이터를 수집 및 정제하여 활용한다.
2. 교내외 예상 서비스 시나리오에 기반한 수준별 검색 질의 데이터 생성
: 해당 서비스의 예상 사용자인 교외 산학협력 희망자 및 교내 공동 연구 희망자의 예상 질의 생성 및 정제 파이프라인을 구축한다. 이때, 사용자의 검색 행동을 고려하여 질문 유형 및 수준을 고려한 다양성이 확보된 학습 데이터를 구축한다. 특히, 고품질의 학습 데이터 확보를 위한 연구 데이터 기반 정제 프레임워크를 함께 설계한다.
3. 한국어 및 영어 기록에 적합한 수준별 검색 대응 모델 훈련
: 한국어 및 영어 기반의 연구 및 산학 협력 기록에 적합한 다국어 검색 모델을 훈련하여 획득하는 것을 목표로 한다. 특히 사용자의 검색 행동을 고려하여 다양한 질문 유형과 수준에 대응할 수 있는 검색 모델 학습 방법론을 탐구하고 적용한다.