| 번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
| 공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 14545
|
관리자 | 2020.03.12 | 0 | 14545 |
| 공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 13310
|
관리자 | 2020.03.12 | 0 | 13310 |
| 공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 14247
|
관리자 | 2020.03.12 | 0 | 14247 |
| 550 |
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (3)
Sunghun Lim
|
2026.03.01
|
추천 0
|
조회 55
|
Sunghun Lim | 2026.03.01 | 0 | 55 |
| 549 |
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (5)
Suyeon Shin
|
2026.02.25
|
추천 0
|
조회 69
|
Suyeon Shin | 2026.02.25 | 0 | 69 |
| 548 |
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo
|
2026.02.12
|
추천 0
|
조회 198
|
Jaehyuk Heo | 2026.02.12 | 0 | 198 |
| 547 |
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (8)
Hyeongwon Kang
|
2026.02.10
|
추천 0
|
조회 197
|
Hyeongwon Kang | 2026.02.10 | 0 | 197 |
| 546 |
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim
|
2026.02.03
|
추천 0
|
조회 264
|
Hankyeol Kim | 2026.02.03 | 0 | 264 |
| 545 |
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (12)
Sieon Park
|
2026.01.29
|
추천 0
|
조회 340
|
Sieon Park | 2026.01.29 | 0 | 340 |
| 544 |
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (12)
Subeen Cha
|
2026.01.28
|
추천 0
|
조회 230
|
Subeen Cha | 2026.01.28 | 0 | 230 |
| 543 |
[Paper Review] Model Merging for Continual Learning (11)
Hun Im
|
2026.01.24
|
추천 0
|
조회 233
|
Hun Im | 2026.01.24 | 0 | 233 |
| 542 |
[Paper Review] Selective Learning for Deep Time Series Forecasting (13)
Jinwoo Park
|
2026.01.24
|
추천 0
|
조회 335
|
Jinwoo Park | 2026.01.24 | 0 | 335 |
| 541 |
[Paper Review] Multiple Instance Learning in Time Series (9)
Doyoon Kim
|
2026.01.13
|
추천 0
|
조회 422
|
Doyoon Kim | 2026.01.13 | 0 | 422 |
이번 세미나는 100개 이상의 언어 및 교차언어를 지원하는 Multi-Linguality, 사용 목적에 따라 검색 방식(Dense/Sparse/Multi-Vector)을 자율적으로 선택 가능한 Multi-Functionality, 마지막으로 다양한 길이에 대한 지원을 하는 Multi-Granualarity라는 3가지 특징을 가지는 M3-Embedding을 제안한 “M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation” 논문에 대한 발표를 중심으로 진행되었습니다. 2024 ACL에 제출되어 현재 300회에 달하는 인용 수를 기록하고 있는 연구인만큼, M3로 표현되는 각각의 Contribution마다 기존 방법론들의 문제점이 잘 정의되어 있고, 이를 해결하기 위해 해당 모델에서 Hybrid Retrieval, Self-Knowledge Distillation, Efficient Batching, 고품질 데이터셋 구축 등의 방법들을 통해 효과적으로 해결하는 좋은 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문에 대해 소개해주셨습니다. 해당 논문은 직관적인 제목에서 알수 있듯이 self-knowledge distillation을 통해 multi-linguality, functionality, granularity를 모두 고려할 수 있는 embedding 모델을 제안한 연구 입니다. self-knowledge distillation을 통해 dense, lexical, multi-vector retrieval 을 모두 loss로 반영하여 두 단계에 걸친 학습 과정을 제안합니다. 단순히 embedding 모델을 구성하는 것이 아니라 크게 세 가지 초점에 맞추어 범용적인 사용을 위한 모델을 제안했다는 점에서 여전히 embedding 모델에 대한 연구가 지속되고 있음을 알 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 중심으로, self-knowledge distillation을 활용하여 다국어, 다기능, 다양한 길이 지원을 고려한 텍스트 임베딩 모델을 제안한 연구를 다뤘습니다. 이 모델은 dense, sparse, multi-vector retrieval 방식을 유연하게 선택할 수 있으며, Hybrid Retrieval, Self-Knowledge Distillation, Efficient Batching 등을 통해 기존 모델의 한계를 극복하고 성능을 향상시키는 방법을 제시합니다. 발표를 통해 임베딩 모델의 발전 가능성을 다시 한번 느낄 수 있었습니다.
이번 세미나에서는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 논문의 핵심은 M3-Embedding이라는 새로운 Retrieval Embedding 모델을 제안한 것입니다. 이 모델은 Multi-Linguality, Multi-Functionality, 그리고 Multi-Granularity의 특성을 결합하여 다양한 언어와 상황에서 효과적으로 동작합니다. 특히, 100개 이상의 언어를 지원하며 Dense Retrieval, Sparse Retrieval, Multi-Vector Retrieval 등 다양한 검색 방식을 선택적으로 사용할 수 있습니다. 핵심 기술로는 Self-Knowledge Distillation을 통해 효율적인 배치 처리와 고품질 데이터셋 구축을 통해 모델 학습을 최적화합니다. 이러한 접근 방식은 기존 모델들이 다루지 못했던 Semantic, Near-Distribution, 그리고 Industrial AD 데이터셋 간의 방법론적 간극을 크게 줄였으며, 이는 논문에서 실험적으로 증명되었습니다. 종합적으로, 이 논문은 Multi-Vector Retrieval의 세밀한 상호작용을 통해 Dense Retrieval의 성능을 강화하고, 각종 언어와 도메인에 걸친 광범위한 적용 가능성을 입증했습니다. 이러한 내용은 향후 희소 언어(low-resource languages) 연구에 도움이 될 것으로 예상됩니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 소개해주셨습니다. 해당 연구는 100개 이상의 다양한 언어와 교차언어 환경을 지원하는 Multi-Linguality, Dense Retrieval, Sparse Retrieval, Multi-Vector Retrieval 등 다양한 검색 방식을 상황에 따라 선택 가능한 Multi-Functionality, 그리고 다양한 길이의 텍스트를 효과적으로 처리할 수 있는 Multi-Granularity라는 세 가지 특징을 통합한 Retrieval Embedding 모델인 M3-Embedding을 제안합니다. 특히 이 모델은 기존 방법론들의 한계점을 Hybrid Retrieval과 Self-Knowledge Distillation, 효율적인 배치 처리 및 고품질 데이터셋 구축을 통해 효과적으로 극복하였습니다. 또한 Semantic, Near-Distribution, Industrial AD 등 다양한 데이터셋에서 실험적으로 기존 모델 대비 뛰어난 성능을 입증하며, 다국어 환경에서 Retrieval 성능을 획기적으로 향상시킨 점이 인상적이었습니다. 이러한 접근 방식은 향후 다양한 도메인과 희소 언어 연구에 크게 기여할 것으로 기대됩니다. 좋은 발표 감사합니다.
금일 세미나는 다양한 retrieval 상황을 고려한 학습 방법론 및 데이터 구축 방법론을 제안한 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation"을 중심으로 진행되었습니다. MTEB 벤치마크가 활발히 사용된 이후로 embedding 모델들 역시 일반화 성능이 중요해지고 있습니다. 이에 대해 해당 연구는 lexical, semantic, multi-vector retrieval 모두를 고려한 학습 loss 설계와 웹 데이터 기반의 다국어 학습 데이터 구축을 통한 다국어 지원을 목표로하고 있습니다. 특히 3가지 granuality를 고려하는 과정은 dense vector를 활용하는 방식을 통해 구현되어 있습니다. 이는 colbert와 같은 기존의 multi-vector, lexical 정보 반영 연구의 영향을 받았다는 점을 알 수가 있습니다. 이외에도 모델 크기에 비해 자원이 매우 많이 소모되는 InfoNCE Loss 기반의 학습 특징 상 효율적인 학습을 위한 배치 전략과 gradient caching 수정, multi cls 토큰 활용 등은 실제 엔지니어링 측면에서의 모델 성능 극대화를 위한 노력으로 볼 수 있습니다. MTEB 벤치마크 상위 연구들의 특성 상 성능 격차가 학습 방식 및 모델 구조에 기인하는지 단순히 학습 데이터 크기와 품질에 기인하는지 알 수 없다는 점이 아쉽지만, 해당 방법론을 통해 학습된 모델들이 여전히 매우 좋은 성능을 나타낸다는 점을 볼 때, retrieval 학습 시 다양한 정보를 반영하는 것이 매우 유의미하다는 점을 알 수 있습니다. 좋은 발표 감사합니다.
금일 세미나는 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 바탕으로 진행되었습니다. 제안 연구에서는 Retreival Embedding model을 제안해주고 있으며, 이때 Multi-Linguality, Multi-Functionality, Multi-granularity라는 3가지 측면에서 사용가능하게끔 하는 방법을 제안하고 있습니다. 먼저, Multi-Linguality 측면에서는 100개 이상의 언어를 지원하며, 단일 언어 뿐만 아니라 교차언어 Retrieve가 가능합니다. 다음으로 Multi-Functionality 측면에서는 Dense Retrieval, Sparse Retrieval, Multi-Vector Retrieval을 지원하여 사용 목적에 따라 Retrieve 방식을 자율적으로 선택하거나 조합하여 최적의 결과를 도출하게끔 하고 있습니다. 마지막으로, Multi-granularity 측면에서는 짧은 문장(Sentence-Level), Passage-Level, 긴 문서(Document-Level: 8,192 토큰) 등 다양한 길이의 데이터에 대해 효율적인 처리 방법을 제공하고자 하고 있습니다. 이를 방법들을 기반으로, 제안 연구에서는 Self-Knowledge Distillation, Efficient Batching, 고품질 데이터셋 구축 등의 기법을 활용하여 다양한 검색 기능을 동시에 학습하고 최적화되었고, 그 결과 다양한 모델 대비 일관된 성능과 함께 low-resource language에서도 좋은 모습을 보였습니다. 자세한 설명과 발표 정말 감사드립니다.
이번 세미나에서는 ACL 2024에서 발표된 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문이 소개되었습니다. 이 연구는 텍스트 임베딩 모델의 다국어 지원, 다기능성, 다중 세분성 측면에서의 확장성을 제안했습니다. 특히, 100개 이상의 언어를 지원하며, 밀집(dense), 다중 벡터(multi-vector), 희소(sparse) 검색 기능을 동시에 수행할 수 있다는 점이 인상적이었습니다. 또한, 짧은 문장부터 최대 8,192 토큰에 이르는 긴 문서까지 다양한 길이의 입력을 처리할 수 있다는 점도 주목할 만합니다.
주요 기여 중 하나는 자기 지식 증류(self-knowledge distillation) 기법을 도입하여, 다양한 검색 기능에서 얻은 관련성 점수를 통합하여 모델의 학습 품질을 향상시킨 것입니다. 또한, 대용량 배치 처리를 최적화하여 높은 학습 처리량과 임베딩의 판별력을 향상시켰습니다.
실험 결과, M3-Embedding은 다국어, 교차 언어, 장문서 검색 벤치마크에서 새로운 최첨단 성능을 달성하여, 다양한 언어와 입력 길이에 걸쳐 우수한 성능을 보였습니다.
이 논문은 텍스트 임베딩 모델의 범용성을 크게 향상시킨 연구로, 실제 정보 검색 시스템에서의 적용 가능성이 높아 보입니다. 특히, 다양한 검색 기능을 통합하고, 긴 문서 처리 능력을 갖춘 점은 실용적인 기여라고 생각됩니다. 좋은 발표 감사합니다!
이번 세미나는 ACL 2024에 발표된 "M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation" 논문을 중심으로 진행되었습니다. 해당 연구는 100개 이상의 언어를 지원하는 Multi-Linguality, 다양한 검색 방식을 유연하게 선택할 수 있는 Multi-Functionality, 짧은 문장에서 긴 문서까지 대응하는 Multi-Granularity를 통합한 Retrieval Embedding 모델을 제안합니다. 특히, Self-Knowledge Distillation을 활용하여 Dense, Sparse, Multi-Vector Retrieval을 효과적으로 학습하며, Efficient Batching과 고품질 데이터셋 구축을 통해 성능을 극대화한 점이 인상적이었습니다. 실험 결과, 다국어 및 장문 검색에서 기존 방법 대비 우수한 성능을 보이며, 희소 언어(low-resource languages) 환경에서도 강점을 나타냈습니다. 이러한 연구는 범용 검색 시스템 구축에 중요한 기여를 하며, 향후 다양한 도메인에서 활용될 가능성이 높아 보입니다. 좋은 발표 감사합니다!