[Paper Review] SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval

Paper Review
작성자
Jihun Nam
작성일
2024-11-26 10:15
조회
1162
논문 제목: SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval

링크: https://aclanthology.org/2023.acl-long.125/

ACL 2023

Dense Retrieval

1. 논문 제목: SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval (ACL 2023)
2. 요약
  • Dense Retrieval에서 인코더-디코더 구조와 표현 병목(representation bottleneck)을 활용한 새로운 pre training 방법을 제시
  • replaced language modeling을 통해 효율적인 pre training과 입력 분포 불일치 문제를 완화하며, 대규모 데이터셋에서 경쟁력 있는 검색 성능을 달성
  • Fine-tuning 단계에서는  BM25 Hard negatives와 Mined negatives sample을 사용해 성능을 최적화하고, Re-ranker를 활용한 knowledge distillation을 통해 추가적인 성능 향상을 달성
3. 발표자료 및 발표영상
  • 발표자료: 하단 첨부
  • 발표영상: 첨부 예정
전체 15

  • 2024-12-04 18:43

    금일 세미나에서는 Dense Passage Retrieval의 Pre-training 방법론으로 제안된 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval" 논문을 소개해 주셨습니다. 특히 Replaced Language Modeling(RLM)을 통해 pre-training과 fine-tuning 간 입력 분포 불일치를 해결하고자 한 점이 인상 깊었으며, Encoder-Decoder 구조에서 Representation Bottleneck을 도입해 정보 전달을 극대화하며, 이를 통해 sentence-level 임베딩 품질을 향상시킨 점이 흥미로웠습니다. 또한 Fine-tuning 단계에서 BM25와 모델 기반 Hard Negative Sampling을 결합하여 Contrastive Learning을 수행하고, Re-ranker 및 Distill Retriever를 활용해 Dense Retrieval 성능을 강화한 점도 특이하였으며 이러한 구조적 개선이 실제 MS-MARCO와 Natural Questions와 같은 대규모 데이터셋에서 유의미한 성능 향상을 이끌어냈다는 점에서 본 연구의 가치가 돋보였던 것 같습니다. 좋은 발표 준비해 주셔서 정말 감사합니다!


  • 2024-12-06 16:41

    이번 세미나에서는 Dense Passage Retrieval의 Pre-training 개선 방법론으로 제안된 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval" 논문이 소개되었습니다. SimLM은 Encoder-Decoder 구조에서 Representation Bottleneck을 도입해 정보 압축을 최적화하고, Replaced Language Modeling(RLM)을 통해 pre-training과 fine-tuning 간 입력 분포 불일치를 해결하고자 한 점이 돋보였습니다. RLM은 일부 토큰을 랜덤하게 대체하여 사전 학습과 미세 조정 간의 간극을 줄이는 효과적인 접근으로 보였습니다. Fine-tuning 단계에서는 BM25 기반 Hard Negative와 모델 생성 Hard Negative를 결합해 Contrastive Learning을 수행하며, Re-ranker와 Distill Retriever를 통해 Dense Retrieval 성능을 강화했습니다. MS-MARCO와 Natural Questions 데이터셋에서 Sparse Retrieval 대비 유의미한 성능 향상을 보여줌으로써 이 방법론의 실용성과 효율성을 입증했습니다. 특히, Hard Negative Sampling과 Bottleneck 구조가 sentence-level 임베딩 품질 향상에 크게 기여한 점이 흥미로웠습니다. 향후 복잡한 구조가 학습 과정에서 발생할 수 있는 잠재적 한계에 대한 추가 논의도 기대됩니다. 좋은 발표 감사합니다!


  • 2024-12-07 13:34

    이번 세미나에서는 정보 검색 분야에서 Encoder-Decoder 구조와 Representation Bottleneck을 활용하여 효과적인 사전 학습 방법을 제안한 “SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval” 논문에 대해 발표해 주셨습니다. 해당 논문에서 가장 인상 깊었던 점은 ‘Representation Bottleneck’이라는 개념을 도입하여, Encoder에서 생성된 정보를 Decoder가 재구성하는 과정에서 정보의 함축적 표현을 강제하는 방식이었습니다. 이러한 구조는 입력 분포 불일치 문제를 완화하고, 대규모 데이터셋에서도 높은 성능을 보장하는 검색 시스템을 구현하는 데 중요한 역할을 한 점이 매우 인상깊었습니다. 또한, Fine-tuning 단계에서는 BM25 Hard Negatives와 Mined Negatives 샘플을 사용하여 더욱 정밀한 검색 결과를 도출하고, Re-ranker를 통한 Knowledge Distillation 접근법을 통해 성능을 한층 더 향상시키는 전략이 매우 흥미로웠습니다. Dense Passage Retrieval 분야에서 더욱 정교하고 효율적인 결과를 도출할 수 있는 가능성이 높다고 생각했습니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2024-12-07 16:58

    금일 세미나는 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retriever" 논문을 바탕으로 진행되었습니다. 해당 연구는 Dense Passage Retri(DPR) 성능을 개선하기 위해 설계된 모델로, Encoder-Decoder 구조에 Representation Bottleneck과 Replaced Language Modeling(RLM)을 결합하여 학습 과정에서 발생하는 문제를 해결하고 있습니다. 먼저 Representation bottleneck을 학습하고자 Encoder와 Decoder 사이의 정보 압축 단계를 도입하여 sentence-level 임베딩 품질을 향상시킵니다. 이 구조는 정보 전달 효율성을 높이는 동시에, 입력 분포 불일치 문제를 완화하여 fine-tuning 과정에서의 효과를 증대시킬 수 있다는 장점이 존재합니다. 또한, 효과적으로 모델링을 진행하고자 Replaced Language Modeling (RLM)을 도입합니다. 이는 일부 토큰을 마스킹한 뒤, 랜덤 토큰으로 대체하여 pre-training과 fine-tuning 간 입력 분포의 차이를 줄이는 데 사용됩니다. 이 방법은 모든 토큰 위치에서 gradient를 전달함으로써 학습 과정에서 발생할 수 있는 간극을 효과적으로 해소할 수 있다는 장점이 존재합니다. Fine-tuning 단계에서는 먼저 2 가지 Retriever를 통하여 hard negative sample을 추출한 후, Re-ranker를 통하여 query와 passage 간의 전체적인 상호작용을 학습합니다. 마지막 Retriever distill을 통하여 정확성과 확정성을 보장하고자 하고 있습니다. 좋은 발표 정말 감사드립니다.


  • 2024-12-07 22:29

    이번 세미나에서는 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 본 논문에서는 Representation Bottleneck과 Replaced Language Modeling(RLM)을 활용한 효율적인 pre-training 방법을 제안하여 Dense Passage Retrieval(DPR) 분야에서 성능을 향상시키고자 하였습니다. 논문에서 소개된 주요 기법은 간단하면서도 효과적인 pre-training 접근 방법을 통해 Encoder에서 생성된 정보를 Decoder가 재구성하는 과정에서 정보의 함축적 표현을 강제하였습니다. 이 과정은 입력 분포 불일치 문제를 완화하며, 대규모 데이터셋에서도 경쟁력 있는 검색 성능을 달성하였습니다. Fine-tuning 단계에서는 BM25 Hard negatives와 Mined negatives sample을 사용하여 성능을 최적화하고, Re-ranker를 활용한 Knowledge Distillation을 통해 추가적인 성능 향상을 달성하였습니다. 언어 모델의 다양한 사전학습 방식에 비교해서 설명해주셔서 더 쉽게 이해할 수 있었습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-12-08 21:54

    금일 세미나는 retriever 모델의 pretrain을 위해 문장 정보를 단일 representation으로 압축하도록 강제하는 방법론을 제안한 SimLM: Pre-training with Representation Bottleneck for Dense Passsage Retrieval을 중심으로 진행되었습니다. Dense Retriever는 문장의 많은 정보들을 최대한 representation에 담을 수 있는 능력이 요구되고, 이는 MLM 태스크 등으로 반영되기 어렵습니다. 이를 위해 본 연구에서는 bottleneck을 통해 encoderd의 정보를 압축하도록 강제하고 decoder로 복원하는 정보를 학습하도록 하고 있습니다. 이러한 구조는 ELECTRA나 RetroMAE 등의 연구들에서 지속적으로 제안된 구조입니다. 하지만 mlm과 유사한 태스크 설계를 통해 성능을 개선시키고 ANCE 이후 널리 활용되는 Negative mining까지 적용하여 성능을 극대화하고 있습니다. Retriever 연구 시 정보를 충분히 압축하도록 학습하는 것은 여전히 매우 중요한 태스크인데, 아직 해결해야 할 문제들이 많은 것 같습니다. 좋은 발표 감사드립니다.


  • 2024-12-10 12:00

    이번 세미나에서는 Dense Passage Retrieval의 Pre-training 개선 방법론으로 제안된 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval" 논문에 대해 발표해 주셨습니다. 해당 연구에서 Encoder-Decoder 구조에 Representation Bottleneck을 도입하여 정보 전달을 최적화하고, Replaced Language Modeling(RLM)을 통해 pre-training과 fine-tuning 간의 입력 분포 불일치를 해결하고자 한 점이 인상 깊었습니다. 특히, BM25와 모델 기반 Hard Negative Sampling을 결합한 Contrastive Learning을 통해 Dense Retrieval 성능을 강화하고, Re-ranker 및 Distill Retriever를 활용하여 효율성과 정밀도를 높인 점이 돋보였습니다. MS-MARCO와 Natural Questions 데이터셋에서 유의미한 성능 향상을 보여주며, 연구의 실용성을 잘 입증한 사례라고 생각됩니다. 좋은 발표 준비해 주셔서 감사합니다!


  • 2024-12-11 21:58

    이번 세미나에서는 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval"에 대해 소개해주셨습니다. 이는 자기 지도 학습을 통해 passage 정보를 dense vector로 압축하는 간단한 병목 구조를 도입한 아이디어로, LLM의 효율성을 높인다는 특징을 갖습니다. 특히 ELECTRA를 발전시켜 샘플 효율성을 개선하고, 사전 학습과 미세 조정 간의 입력 분포 불일치를 줄이고 있습니다. 해당 연구는 특히 라벨이 없이도 높은 성능을 달성하였다는 점과 라벨 데이터 및 쿼리가 없는 상황에서도 적용이 가능하다는 점이 실용성 측면 가장 큰 기여점이라고 생각됩니다. 좋은 발표 감사드립니다.


  • 2024-12-17 10:48

    이번 세미나에서는 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval" 논문을 소개해주셨습니다. 이 연구는 Dense Passage Retrieval의 성능 향상을 위해 혁신적인 접근 방식을 제시했습니다. Encoder-Decoder 구조에 Representation Bottleneck을 도입하여 정보 압축을 최적화했고, 이를 통해 sentence-level 임베딩의 품질을 크게 개선했다는 점이 인상적이었습니다. 특히 주목할 만한 점은 Replaced Language Modeling(RLM)의 도입입니다. 일부 토큰을 랜덤하게 대체하는 방식으로 pre-training과 fine-tuning 사이의 입력 분포 차이를 효과적으로 줄였고, 모든 토큰 위치에서 gradient가 전달되도록 하여 학습 과정의 효율성을 높였습니다. Fine-tuning 단계에서는 BM25 기반과 모델 생성 방식을 통해 hard negative sample을 추출하고, Re-ranker를 활용하여 query와 passage 간 상호작용을 심도 있게 학습했습니다. 최종적으로 Retriever distill을 통해 모델의 정확성과 확장성을 확보했으며, MS-MARCO와 Natural Questions 데이터셋에서 기존 방식 대비 우수한 성능을 입증했습니다.좋은 발표 감사합니다!


  • 2024-11-26 20:06

    이번 세미나는 Dense Passage Retrieval(DPR)의 Pre-training 방법론으로 제안된 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval" 논문을 중심으로 진행되었습니다. 본 논문은 Encoder-Decoder 구조에 Representation Bottleneck을 도입해 sentence-level 임베딩 품질을 개선하고, Replaced Language Modeling(RLM)을 통해 pre-training과 fine-tuning 간의 입력 분포 불일치 문제를 해결한 점이 인상적이었습니다. RLM은 일부 토큰을 마스킹하고 랜덤 토큰으로 대체해 학습 효율성을 높이는 효과를 보였습니다.

    Fine-tuning 단계에서는 BM25와 모델 생성 Hard Negative Sampling을 결합해 Contrastive Learning을 수행하며, Re-ranker와 Distill Retriever를 통해 Dense Retrieval 성능을 강화했습니다. Bottleneck 구조와 Hard Negative Sampling이 주요 기여 요소로 작용한 점이 인상깊었습니다. 좋은 발표 감사합니다!


  • 2024-11-26 14:54

    이번 세미나에서는 “SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval” 논문이 소개되었습니다. 이 연구는 Dense Passage Retrieval(DPR) 성능을 향상시키기 위해 Encoder-Decoder 구조에 Representation Bottleneck을 도입해 정보를 압축적으로 표현하도록 강제하는 방법론을 제안합니다. Bottleneck을 통해 Encoder가 생성한 정보를 Decoder가 재구성하면서 sentence-level 임베딩의 품질을 높이고, 입력 분포 불일치 문제를 완화하여 Pre-training과 Fine-tuning 간 간극을 줄이는 데 성공했습니다. 또한, Replaced Language Modeling(RLM)을 사용해 일부 토큰을 랜덤 토큰으로 대체하여 모든 토큰 위치에서 학습 신호를 전달함으로써 학습의 효율성을 극대화했습니다. Fine-tuning 단계에서는 BM25 Hard Negatives와 Mined Negatives를 활용해 정교한 Negative 샘플링을 진행하고, Re-ranker와 Knowledge Distillation을 통해 query와 passage 간 상호작용을 학습하여 성능을 더욱 향상시켰습니다. 이 논문은 Dense Retriever가 정보를 효과적으로 압축하고 활용할 수 있는 새로운 접근을 제시하며, 대규모 데이터에서 효율성과 정확도를 모두 높일 수 있는 가능성을 보여줍니다. 발표를 통해 정보 검색 분야의 최신 동향과 혁신적인 접근법을 알 수 있는 유익한 시간이었습니다. 감사합니다!


  • 2024-11-26 13:13

    본 세미나는 Retrieval task에서 많이 활용되는 방법론인 Dense Passage Retrieval의 Pre-training 방법론을 주요하게 다룬 논문을 중심으로 진행되었습니다. 기존 문제점은 pre-training과 fine-tuning의 입력 분포 불일치였습니다. 이를 해결하고자 replaced language modeling, 즉 encoder-decoder 구조에 토큰 일부를 랜덤하게 마스킹 처리 후, 가짜 토큰으로 대체하는 모든 token 위치에 gradient를 전달하는 방식을 채택했습니다. 두 학습 method의 간극을 포커싱 했다는 점이 인상깊었으며, 이 간극을 정확히 타겟하는 해결방법론을 제시했다는 점이 큰 기여점이라고 생각했습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-11-27 16:12

    이번 세미나에서는 Dense Passage Retrieval의 성능과 효율성을 높이기 위해 제안된 SimLM이 소개되었습니다. SimLM은 Representation Bottleneck을 도입하여 Encoder와 Decoder 간 정보 전달을 극대화하고, Replaced Language Modeling(RLM)을 적용해 사전 학습과 미세 조정(pre-training과 fine-tuning) 간 입력 분포 불일치를 줄였습니다.
    사전 학습 과정에서는 BERT 기반 Encoder와 얕은 구조의 Decoder를 활용하여 sentence-level 임베딩 품질을 향상시켰으며, fine-tuning에서는 BM25 및 모델 기반 Hard Negative 샘플링을 결합하여 검색 성능을 강화했습니다. 실험 결과, MS-MARCO와 Natural Questions 데이터셋에서 Sparse Retrieval 모델보다 높은 성능을 보였으며, 특히 Hard Negative Sampling과 Re-Ranker Distillation이 성능 향상의 주요 요인임을 확인했습니다. 이러한 접근법은 대규모 데이터셋에서 Dense Retrieval의 효율성을 높이고 기존 한계를 극복하는 데 기여했습니다. 좋은 발표 감사합니다.


  • 2024-12-02 12:10

    이번 세미나는 Encoder-Decoder 구조의 간단한 학습과, Generator를 통해 Masking된 토큰에 대한 예측을 수행하여 Replaced Language Modeling(RLM)을 수행하는 Dense Passage Retrieval의 Pre-Training 방법론을 제안한 "SimLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval”라는 논문에 대한 발표를 중심으로 진행되었습니다. SimLM의 Fine-Tuning 단계에서는 2가지의 Retriever와 Re-ranker, Distill Retriever를 통해 진행됩니다. 두 Retriever의 경우 각각 BM25에 기반한 Hard Negative Sample과 모델이 생성한 Hard Negative Sample을 통해 Contrastive Learning을 수행합니다. Re-ranker의 경우 Retriever 2에서 생성한 Mined Negative Sample을 사용해 Cross-Encoder 구조를 통해 Query와 Passage 간의 Interaction을 학습하고, 마지막 Distill Retriever의 경우 기존 Contrastive Loss에 더해 KL Divergence Term을 추가해 정확성과 확장성을 보장합니다. 그러나 해당 모델이 각 구성 요소들에 대해 순차적인 구조를 가지고 있어서 잘못된 학습이 이루어질 수도 있다는 점에서 한계점이 있을 수 있다는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-01-29 23:18

    이번 세미나는 DPR(Dense Passage Retrieval)을 주제로 진행되었습니다. 좀 더 단순하고, 효과적인 개선을 이룬 SimLM이라는 방법론을 제안한 연구가 소개되었습니다. 크게 사전 학습과 미세조정 학습 단계로 구분되는데, 사전 학습을 진행할 때, 후에 미세조정 학습 시 retriever 역할을 하는 encoder와 그 보다 레이어 수가 적은 디코더를 함께 활용합니다. 이때, bottleneck 발생하게 되는 것입니다. 그 후 미세조정 학습 단계에서 Retriever 1, 2, 그리고 distill 버젼까지 함께 활용하고 이때 앞선 사전학습된 encoder로 초기화 합니다. 생각보다 간단한 구조와 과정으로 진행되는 모습이 좀 인상적이었습니다. 흥미로운 주제 발표해주셔서 감사합니다.


전체 530
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 12864
관리자 2020.03.12 0 12864
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 11628
관리자 2020.03.12 0 11628
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 12656
관리자 2020.03.12 0 12656
527
Introduction to Discrete Diffusion Language Models. (2)
Jaehee Kim | 2025.10.24 | 추천 0 | 조회 35
Jaehee Kim 2025.10.24 0 35
526
[Paper Review] AutoTimes: Autoregressive Time Series Forecasters via Large Language Models (15)
Sieon Park | 2025.10.03 | 추천 0 | 조회 238
Sieon Park 2025.10.03 0 238
525
[Paper Review] DFM: Differentiable Feature Matching for Anomaly Detection (13)
Subeen Cha | 2025.09.24 | 추천 0 | 조회 284
Subeen Cha 2025.09.24 0 284
524
[Paper Review] SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning (13)
Siyul Sung | 2025.09.17 | 추천 0 | 조회 285
Siyul Sung 2025.09.17 0 285
523
[Paper Review] ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced (13)
Jihun Nam | 2025.09.02 | 추천 0 | 조회 440
Jihun Nam 2025.09.02 0 440
522
[Paper Review] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models (6)
Junyeong Son | 2025.08.28 | 추천 0 | 조회 479
Junyeong Son 2025.08.28 0 479
521
[Paper Review] spurious Forgetting in Continual Learning of Language Models (8)
Hun Im | 2025.08.22 | 추천 0 | 조회 303
Hun Im 2025.08.22 0 303
520
[Paper Review] Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning (9)
Jinwoo Park | 2025.08.22 | 추천 0 | 조회 328
Jinwoo Park 2025.08.22 0 328
519
[Paper Review] From Local to Global: A GraphRAG Approach to Query-Focused Summarization (7)
Doyoon Kim | 2025.08.15 | 추천 0 | 조회 466
Doyoon Kim 2025.08.15 0 466
518
[Paper Review] AutoUAD: Hyper-parameter Optimization for Unsupervised Anomaly Detection (4)
Woojun Lee | 2025.08.12 | 추천 0 | 조회 282
Woojun Lee 2025.08.12 0 282

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호