Seminar

BOARD

[Paper Review] M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Di

Paper Review

작성자

Jihun Nam

작성일

2025-02-26 16:16

조회

1158

논문 제목
- M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation (ACL 2024)
- 링크: https://aclanthology.org/2024.findings-acl.137/
Overview
- Multi linguality, Multi functionality, Multi granuaility를 통합한 새로운 Retreival Embedding 모델로, 기존 방법 대비 검색 성능이 크게 향상
- Self-Knowledge Distillation, Efficient Batching, 고품질 데이터 셋 구축 등의 기법을 활용하여 다양한 검색 기능을 동시에 학습하고 최적화
- Multi-Lingual 및 Cross-Lingual retrieval에서 기존 모델 대비 일관된 성능을 유지하면서도, 특히 희소 언어(low-resource languages)에서도 강력한 성능
- 긴 문서 검색에서도 높은 성능을 유지하며, 기존 검색 모델의 한계를 극복

전체 9

Junyeong Son

2025-03-01 21:22

이번 세미나는 100개 이상의 언어 및 교차언어를 지원하는 Multi-Linguality, 사용 목적에 따라 검색 방식(Dense/Sparse/Multi-Vector)을 자율적으로 선택 가능한 Multi-Functionality, 마지막으로 다양한 길이에 대한 지원을 하는 Multi-Granualarity라는 3가지 특징을 가지는 M3-Embedding을 제안한 “M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation” 논문에 대한 발표를 중심으로 진행되었습니다. 2024 ACL에 제출되어 현재 300회에 달하는 인용 수를 기록하고 있는 연구인만큼, M3로 표현되는 각각의 Contribution마다 기존 방법론들의 문제점이 잘 정의되어 있고, 이를 해결하기 위해 해당 모델에서 Hybrid Retrieval, Self-Knowledge Distillation, Efficient Batching, 고품질 데이터셋 구축 등의 방법들을 통해 효과적으로 해결하는 좋은 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
Jaehyuk Heo

2025-03-03 17:04

이번 세미나는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문에 대해 소개해주셨습니다. 해당 논문은 직관적인 제목에서 알수 있듯이 self-knowledge distillation을 통해 multi-linguality, functionality, granularity를 모두 고려할 수 있는 embedding 모델을 제안한 연구 입니다. self-knowledge distillation을 통해 dense, lexical, multi-vector retrieval 을 모두 loss로 반영하여 두 단계에 걸친 학습 과정을 제안합니다. 단순히 embedding 모델을 구성하는 것이 아니라 크게 세 가지 초점에 맞추어 범용적인 사용을 위한 모델을 제안했다는 점에서 여전히 embedding 모델에 대한 연구가 지속되고 있음을 알 수 있었습니다. 좋은 발표 감사합니다.
SangMin Lee

2025-03-06 10:46

이번 세미나는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 중심으로, self-knowledge distillation을 활용하여 다국어, 다기능, 다양한 길이 지원을 고려한 텍스트 임베딩 모델을 제안한 연구를 다뤘습니다. 이 모델은 dense, sparse, multi-vector retrieval 방식을 유연하게 선택할 수 있으며, Hybrid Retrieval, Self-Knowledge Distillation, Efficient Batching 등을 통해 기존 모델의 한계를 극복하고 성능을 향상시키는 방법을 제시합니다. 발표를 통해 임베딩 모델의 발전 가능성을 다시 한번 느낄 수 있었습니다.
Siyul Sung

2025-03-08 14:21

이번 세미나에서는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 논문의 핵심은 M3-Embedding이라는 새로운 Retrieval Embedding 모델을 제안한 것입니다. 이 모델은 Multi-Linguality, Multi-Functionality, 그리고 Multi-Granularity의 특성을 결합하여 다양한 언어와 상황에서 효과적으로 동작합니다. 특히, 100개 이상의 언어를 지원하며 Dense Retrieval, Sparse Retrieval, Multi-Vector Retrieval 등 다양한 검색 방식을 선택적으로 사용할 수 있습니다. 핵심 기술로는 Self-Knowledge Distillation을 통해 효율적인 배치 처리와 고품질 데이터셋 구축을 통해 모델 학습을 최적화합니다. 이러한 접근 방식은 기존 모델들이 다루지 못했던 Semantic, Near-Distribution, 그리고 Industrial AD 데이터셋 간의 방법론적 간극을 크게 줄였으며, 이는 논문에서 실험적으로 증명되었습니다. 종합적으로, 이 논문은 Multi-Vector Retrieval의 세밀한 상호작용을 통해 Dense Retrieval의 성능을 강화하고, 각종 언어와 도메인에 걸친 광범위한 적용 가능성을 입증했습니다. 이러한 내용은 향후 희소 언어(low-resource languages) 연구에 도움이 될 것으로 예상됩니다. 좋은 발표 준비해주셔서 감사합니다.
Woojun Lee

2025-03-08 22:59

이번 세미나에서는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 소개해주셨습니다. 해당 연구는 100개 이상의 다양한 언어와 교차언어 환경을 지원하는 Multi-Linguality, Dense Retrieval, Sparse Retrieval, Multi-Vector Retrieval 등 다양한 검색 방식을 상황에 따라 선택 가능한 Multi-Functionality, 그리고 다양한 길이의 텍스트를 효과적으로 처리할 수 있는 Multi-Granularity라는 세 가지 특징을 통합한 Retrieval Embedding 모델인 M3-Embedding을 제안합니다. 특히 이 모델은 기존 방법론들의 한계점을 Hybrid Retrieval과 Self-Knowledge Distillation, 효율적인 배치 처리 및 고품질 데이터셋 구축을 통해 효과적으로 극복하였습니다. 또한 Semantic, Near-Distribution, Industrial AD 등 다양한 데이터셋에서 실험적으로 기존 모델 대비 뛰어난 성능을 입증하며, 다국어 환경에서 Retrieval 성능을 획기적으로 향상시킨 점이 인상적이었습니다. 이러한 접근 방식은 향후 다양한 도메인과 희소 언어 연구에 크게 기여할 것으로 기대됩니다. 좋은 발표 감사합니다.
Jaehee Kim

2025-03-10 13:27

금일 세미나는 다양한 retrieval 상황을 고려한 학습 방법론 및 데이터 구축 방법론을 제안한 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation"을 중심으로 진행되었습니다. MTEB 벤치마크가 활발히 사용된 이후로 embedding 모델들 역시 일반화 성능이 중요해지고 있습니다. 이에 대해 해당 연구는 lexical, semantic, multi-vector retrieval 모두를 고려한 학습 loss 설계와 웹 데이터 기반의 다국어 학습 데이터 구축을 통한 다국어 지원을 목표로하고 있습니다. 특히 3가지 granuality를 고려하는 과정은 dense vector를 활용하는 방식을 통해 구현되어 있습니다. 이는 colbert와 같은 기존의 multi-vector, lexical 정보 반영 연구의 영향을 받았다는 점을 알 수가 있습니다. 이외에도 모델 크기에 비해 자원이 매우 많이 소모되는 InfoNCE Loss 기반의 학습 특징 상 효율적인 학습을 위한 배치 전략과 gradient caching 수정, multi cls 토큰 활용 등은 실제 엔지니어링 측면에서의 모델 성능 극대화를 위한 노력으로 볼 수 있습니다. MTEB 벤치마크 상위 연구들의 특성 상 성능 격차가 학습 방식 및 모델 구조에 기인하는지 단순히 학습 데이터 크기와 품질에 기인하는지 알 수 없다는 점이 아쉽지만, 해당 방법론을 통해 학습된 모델들이 여전히 매우 좋은 성능을 나타낸다는 점을 볼 때, retrieval 학습 시 다양한 정보를 반영하는 것이 매우 유의미하다는 점을 알 수 있습니다. 좋은 발표 감사합니다.
Jinwoo Park

2025-03-10 14:54

금일 세미나는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 바탕으로 진행되었습니다. 제안 연구에서는 Retreival Embedding model을 제안해주고 있으며, 이때 Multi-Linguality, Multi-Functionality, Multi-granularity라는 3가지 측면에서 사용가능하게끔 하는 방법을 제안하고 있습니다. 먼저, Multi-Linguality 측면에서는 100개 이상의 언어를 지원하며, 단일 언어 뿐만 아니라 교차언어 Retrieve가 가능합니다. 다음으로 Multi-Functionality 측면에서는 Dense Retrieval, Sparse Retrieval, Multi-Vector Retrieval을 지원하여 사용 목적에 따라 Retrieve 방식을 자율적으로 선택하거나 조합하여 최적의 결과를 도출하게끔 하고 있습니다. 마지막으로, Multi-granularity 측면에서는 짧은 문장(Sentence-Level), Passage-Level, 긴 문서(Document-Level: 8,192 토큰) 등 다양한 길이의 데이터에 대해 효율적인 처리 방법을 제공하고자 하고 있습니다. 이를 방법들을 기반으로, 제안 연구에서는 Self-Knowledge Distillation, Efficient Batching, 고품질 데이터셋 구축 등의 기법을 활용하여 다양한 검색 기능을 동시에 학습하고 최적화되었고, 그 결과 다양한 모델 대비 일관된 성능과 함께 low-resource language에서도 좋은 모습을 보였습니다. 자세한 설명과 발표 정말 감사드립니다.
Hun Im

2025-03-11 13:11

이번 세미나에서는 ACL 2024에서 발표된 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문이 소개되었습니다. 이 연구는 텍스트 임베딩 모델의 다국어 지원, 다기능성, 다중 세분성 측면에서의 확장성을 제안했습니다. 특히, 100개 이상의 언어를 지원하며, 밀집(dense), 다중 벡터(multi-vector), 희소(sparse) 검색 기능을 동시에 수행할 수 있다는 점이 인상적이었습니다. 또한, 짧은 문장부터 최대 8,192 토큰에 이르는 긴 문서까지 다양한 길이의 입력을 처리할 수 있다는 점도 주목할 만합니다.
주요 기여 중 하나는 자기 지식 증류(self-knowledge distillation) 기법을 도입하여, 다양한 검색 기능에서 얻은 관련성 점수를 통합하여 모델의 학습 품질을 향상시킨 것입니다. 또한, 대용량 배치 처리를 최적화하여 높은 학습 처리량과 임베딩의 판별력을 향상시켰습니다.

실험 결과, M3-Embedding은 다국어, 교차 언어, 장문서 검색 벤치마크에서 새로운 최첨단 성능을 달성하여, 다양한 언어와 입력 길이에 걸쳐 우수한 성능을 보였습니다.

이 논문은 텍스트 임베딩 모델의 범용성을 크게 향상시킨 연구로, 실제 정보 검색 시스템에서의 적용 가능성이 높아 보입니다. 특히, 다양한 검색 기능을 통합하고, 긴 문서 처리 능력을 갖춘 점은 실용적인 기여라고 생각됩니다. 좋은 발표 감사합니다!
Kiyoon Jeong

2025-03-15 18:54

이번 세미나는 ACL 2024에 발표된 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 중심으로 진행되었습니다. 해당 연구는 100개 이상의 언어를 지원하는 Multi-Linguality, 다양한 검색 방식을 유연하게 선택할 수 있는 Multi-Functionality, 짧은 문장에서 긴 문서까지 대응하는 Multi-Granularity를 통합한 Retrieval Embedding 모델을 제안합니다. 특히, Self-Knowledge Distillation을 활용하여 Dense, Sparse, Multi-Vector Retrieval을 효과적으로 학습하며, Efficient Batching과 고품질 데이터셋 구축을 통해 성능을 극대화한 점이 인상적이었습니다. 실험 결과, 다국어 및 장문 검색에서 기존 방법 대비 우수한 성능을 보이며, 희소 언어(low-resource languages) 환경에서도 강점을 나타냈습니다. 이러한 연구는 범용 검색 시스템 구축에 중요한 기여를 하며, 향후 다양한 도메인에서 활용될 가능성이 높아 보입니다. 좋은 발표 감사합니다!

« [Paper Review] Guiding Image Captioning Models Toward More Specific Captions

[Paper Review] MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection »

목록보기

전체 553

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 14545	관리자	2020.03.12	0	14545
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 13310	관리자	2020.03.12	0	13310
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 14247	관리자	2020.03.12	0	14247
550	[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (3) Sunghun Lim \| 2026.03.01 \| 추천 0 \| 조회 55	Sunghun Lim	2026.03.01	0	55
549	[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (5) Suyeon Shin \| 2026.02.25 \| 추천 0 \| 조회 69	Suyeon Shin	2026.02.25	0	69
548	[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10) Jaehyuk Heo \| 2026.02.12 \| 추천 0 \| 조회 198	Jaehyuk Heo	2026.02.12	0	198
547	[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (8) Hyeongwon Kang \| 2026.02.10 \| 추천 0 \| 조회 197	Hyeongwon Kang	2026.02.10	0	197
546	[Paper Review] Introduction to Neural Operator (10) Hankyeol Kim \| 2026.02.03 \| 추천 0 \| 조회 264	Hankyeol Kim	2026.02.03	0	264
545	[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (12) Sieon Park \| 2026.01.29 \| 추천 0 \| 조회 340	Sieon Park	2026.01.29	0	340
544	[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (12) Subeen Cha \| 2026.01.28 \| 추천 0 \| 조회 230	Subeen Cha	2026.01.28	0	230
543	[Paper Review] Model Merging for Continual Learning (11) Hun Im \| 2026.01.24 \| 추천 0 \| 조회 233	Hun Im	2026.01.24	0	233
542	[Paper Review] Selective Learning for Deep Time Series Forecasting (13) Jinwoo Park \| 2026.01.24 \| 추천 0 \| 조회 335	Jinwoo Park	2026.01.24	0	335
541	[Paper Review] Multiple Instance Learning in Time Series (9) Doyoon Kim \| 2026.01.13 \| 추천 0 \| 조회 422	Doyoon Kim	2026.01.13	0	422

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호