싱가폴에서 열린 2025 ICLR에 참여하여 진행 중인 개인 연구에 대해 다양한 관련 연구자들의 피드백을 청취하고, 향후 연구를 위한 최신 연구 동향을 파악하는 기회를 얻었습니다. 규모가 매우 큰 컨퍼런스인 만큼 다양한 논문들이 있었지만, 이번 학회에서는 향후 연구를 위해 Masked Diffusion Language Model과 General Text Encoder 연구들을 중심으로 살펴보았습니다. 특히 인상적이었던 연구들을 정리해보면 아래와 같습니다.
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
가장 인상적이었던 연구였습니다. 해당 연구는 ICLR oral paper로서 포스터와 oral session 모두에 참여하여 1저자의 인사이트와 연구 과정 전반에 대한 많은 정보를 습득하고자 노력하였습니다. 해당 연구는 Cornell 대학에서 진행한 연구로서 해당 리서치 그룹에서는 ICLR 2025에만 Diffusion Language Model 연구로 3편의 연구를 발표하는 등 최근 관련 분야에 있어 활발한 활동을 하는 그룹에서 발표한 논문이었습니다. 논문의 아이디어 자체는 Diffusion LM의 한계점인 KV caching이 불가능하고, 길이 조절이 어렵다는 점을 극복하고자 semi-autoregressive한 생성을 위한 학습 및 추론 구조를 제안합니다. Diffusion lm의 기반이 되는 LLaDA와 같은 기존 연구들에서 발견한 내용을 토대로 추론을 위해 attention mask를 수정한 학습 방식을 제안하게 되었는데, 방법론이 직관적임에도 불구하고 향후 diffusion lm의 활용을 위해 매우 필요한 프레임워크로 여겨지는 연구였습니다. 실제로 논문을 살펴보아도 동시 추론 token의 길이에 따른 생성 성능과 속도 간의 관계나 semi-autoregressive한 추론이 가능한 이론적 배경에 대해 매우 탄탄히 설명되어 있으며, 저자의 설명 상으로도 해당 분야가 매우 많은 이론들 위에서 최근 돌파구를 마련한 것을 확인할 수 있었습니다.
Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling
해당 연구는 매우 많은 이론적 토대를 가지고 있는 diffusion modeling에서 시작하여 자연어처리와 같은 discrete한 domain에서 노이즈 시간 변수를 지우기 위한 수식적 전개를 소개한 논문입니다. 짧은 포스터 세션 동안 논문의 전체 흐름을 이해할 수는 없었지만, 해당 논문 이전의 DDLM 연구들이 공통적으로 가지고 있던 노이즈 시간 변수의 활용의 어려움을 해결하기 위한 수식 전개가 인상적이었습니다. 특히 Autoregressive model과 masked model, masked diffusion model 간의 관계를 수식적으로 설명하면서 DDLM이 추론 속도와 생성 품질 측면에서 최적의 모델 구조임을 이론적으로 보이고 있었습니다. 결론적으로 MDLM 모델이 masked ratio를 다양하게 pretrain한 BERT와 같은 구조를 취하게 되었지만, 그 배경에는 이와 같은 연구들이 자리하고 있고, DDLM에 대한 이해를 위해 반드시 확인해보아야 할 연구임을 알 수 있었습니다.
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models
해당 연구는 기존의 Information Retrieval 태스크에 대해 prompt 개념을 추가할 경우의 성능 변화에 대해 리포팅하는 연구였습니다. 이를 위해 기존의 다양한 Information Retrieval 태스크 데이터셋들에 필요한 추가적인 prompt의 개념을 정의하고, 훈련 및 추론 데이터 증강을 수행하였습니다. Encoder 모델에 prompt 개념을 도입하는 것은 최근 DDLM이 주목받으면서 점차 확대될 연구 방향으로 생각합니다. 이에 대한 기반으로서 기존 query와 prompt의 차이점을 명확히 정의하고 사용 관점에서 prompt가 추가적으로 발생시키는 이점들을 잘 풀어낸 연구였습니다. 특히 개인적으로 현재 진행 중인 프로젝트 및 향후 연구 방향에 있어 Retrieval 태스크 데이터 증강 및 평가 데이터의 품질 검증이 매우 어렵다는 것을 체감하고 있는데, 이에 대해서 해당 저자 역시도 마찬가지 경험을 가지고 있었습니다. 다만, 일반적인 retrieval 태스크들의 경우 해당 논문이나 관련 연구에서 제안하는 필터링 수준으로 충분히 제어가 가능하다는 내용을 공유받을 수 있었습니다.
이번 학회에 참여하면서 다양한 연구 분야에 대해 단기간에 최대한 흡수하고, 개인 연구에 대한 방향성을 잡는 것을 목표로 하였습니다. 귀국한 이후 돌이켜 보면 일정 수준의 성과를 거둔 것 같습니다. 이러한 경험들이 헛되이 소비되지 않도록 향후 개인연구 및 연구 방향 설정에 있어 이번 경험을 반영할 수 있도록 최선을 다하겠습니다.
번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
332 |
2025 한국컴퓨터종합학술대회 - 임성훈
Sunghun Lim
|
2025.07.28
|
추천 0
|
조회 12
|
Sunghun Lim | 2025.07.28 | 0 | 12 |
331 |
2025 한국컴퓨터종합학술대회 - 박진우
Jinwoo Park
|
2025.07.26
|
추천 0
|
조회 19
|
Jinwoo Park | 2025.07.26 | 0 | 19 |
330 |
2025 한국컴퓨터종합학술대회 - 정기윤
Kiyoon Jeong
|
2025.07.22
|
추천 0
|
조회 18
|
Kiyoon Jeong | 2025.07.22 | 0 | 18 |
329 |
2025 한국컴퓨터종합학술대회 - 신수연
Suyeon Shin
|
2025.07.18
|
추천 0
|
조회 37
|
Suyeon Shin | 2025.07.18 | 0 | 37 |
328 |
2025 한국컴퓨터종합학술대회 - 손준영
Junyeong Son
|
2025.07.16
|
추천 0
|
조회 35
|
Junyeong Son | 2025.07.16 | 0 | 35 |
327 |
2025 한국컴퓨터종합학술대회 - 김한결
Hankyeol Kim
|
2025.07.07
|
추천 0
|
조회 103
|
Hankyeol Kim | 2025.07.07 | 0 | 103 |
326 |
2025 한국컴퓨터종합학술대회 - 차수빈
Subeen Cha
|
2025.07.05
|
추천 0
|
조회 70
|
Subeen Cha | 2025.07.05 | 0 | 70 |
325 |
2025 한국컴퓨터종합학술대회 - 김도윤
Doyoon Kim
|
2025.07.04
|
추천 0
|
조회 95
|
Doyoon Kim | 2025.07.04 | 0 | 95 |
324 |
2025 ICLR - 김도윤
Doyoon Kim
|
2025.07.02
|
추천 0
|
조회 64
|
Doyoon Kim | 2025.07.02 | 0 | 64 |
323 |
2025 ICLR - 김재희
Jaehee Kim
|
2025.05.12
|
추천 0
|
조회 238
|
Jaehee Kim | 2025.05.12 | 0 | 238 |