번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11394
|
관리자 | 2020.03.12 | 0 | 11394 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 10033
|
관리자 | 2020.03.12 | 0 | 10033 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 11106
|
관리자 | 2020.03.12 | 0 | 11106 |
512 |
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (2)
Sieon Park
|
2025.07.14
|
추천 0
|
조회 45
|
Sieon Park | 2025.07.14 | 0 | 45 |
511 |
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (2)
Subeen Cha
|
2025.07.10
|
추천 0
|
조회 73
|
Subeen Cha | 2025.07.10 | 0 | 73 |
510 |
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon
|
2025.06.27
|
추천 0
|
조회 247
|
Jaewon Cheon | 2025.06.27 | 0 | 247 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 349
|
Minjeong Ma | 2025.06.07 | 0 | 349 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 38
|
Minjeong Ma | 2025.06.02 | 0 | 38 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 35
|
Kiyoon Jeong | 2025.06.02 | 0 | 35 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 35
|
SangMin Lee | 2025.06.02 | 0 | 35 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 439
|
Siyul Sung | 2025.05.31 | 0 | 439 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 375
|
Woojun Lee | 2025.05.20 | 0 | 375 |
이번 세미나에서는 "Gecko: Versatile Text Embeddings Distilled from Large Language Models"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 최근의 텍스트 인코더 연구 동향과 데이터 생성 방법론, 특히 대규모 언어 모델(Large Language Models, LLMs)을 활용한 텍스트 임베딩에 대해 소개해 주셨습니다. 해당 연구에서는 대규모 언어 모델을 통해 양질의 contrastive learning 데이터를 생성하고 이를 통해 범용적인 텍스트 인코더를 효율적으로 학습시키는 방법에 대해 설명합니다. 이 과정에서 생성된 데이터는 query, positive example, 그리고 hard negative example으로 구성되며, 이를 통한 학습은 인코더의 성능을 대폭 향상시키는 것으로 나타났습니다. 본 세미나에서 텍스트 인코더에 대한 트렌드와 LLM의 발전으로 텍스트 인코더에 LLM을 활용하는 방안에 대해서 설명해주셨고, 이렇게 최신 트렌드에 대해 파악할 수 있어 유익한 시간이었습니다. 좋은 발표 준비해주셔서 감사합니다.
금일 세미나에서는 "Gecko: Versatile Text Embeddings Distilled from Large Language Models" 논문을 소개해 주셨습니다. 해당 연구는 Web Corpus에서 다양한 Query 및 Task를 자동 생성하고, 이와 연관된 Positive 및 Hard Negative Document들을 Retriever 모델을 통해 걸러내는 정제 과정을 제안하며, 이 과정에서 기존 대비 더욱 정교한 Hard Negative 샘플을 활용함으로써 학습에 불필요한 노이즈를 줄이고 인코더의 일반화 성능을 향상한 것을 알 수 있었습니다. 또한 Positive 샘플 역시 여러 후보 중에서 가장 유사하고 관련성 높은 예시를 선택하여 학습의 효율성을 높였습니다. Pre-Finetuning 단계에서는 Web Corpus와 QA 데이터셋을 이용해 contrastive learning을 수행하여, 인코더의 기초적인 성능을 구축하고 이후 FRet 데이터셋을 포함한 다양한 데이터로 Fine-Tuning 단계에서 Task별 최적화된 학습을 진행합니다. InfoNCE Loss를 변형한 다양한 Negative 샘플링 기법을 적용해 성능을 극대화하였으며 특히, symmetric과 asymmetric task를 고려한 데이터 구성 및 포맷팅이 Gecko 모델의 뛰어난 성능을 올리는 요인이었던 것 같아 흥미로웠습니다. 좋은 발표 정말 감사드립니다!
이번 세미나는 Decoder Based모델의 Encoder화와 관련한 방법론을 소개하는 "Gecko: Versatile Text Embeddings Distilled from Large Language Models" 논문을 중심으로 진행되었습니다. Contrastive Learning에 필요한 데이터 구축 및 모델 훈련과 관련된 방법론을 제안하는데, 간단한 방법으로 Decoder모델의 Encoder화가 가능하다는 것이 신기하게 느껴졌던 것 같습니다. LM Rolling-out Loss가 아닌, InfoNCE Loss를 기반으로, in-batch negatives, same-tower negatives, hard negatives 등 다양한 네거티브 샘플링 기법을 도입해 Encoder의 성능을 Invoking하는 것이 재밌는 세팅이었던 것 같습니다. 텍스트 인코더의 최신 트렌드와 함께, LLM을 활용해 범용적이고 정확한 텍스트 인코더를 구축하는 방법론에 대한 다양한 인사이트를 얻을 수 있어 유익했습니다. 좋은 발표 감사드립니다!
이번 세미나에서 소개된 "Gecko: Versatile Text Embeddings Distilled from Large Language Models" 논문은 LLM을 활용해 범용 텍스트 인코더의 성능을 향상시키는 방법을 매우 흥미롭게 다룬 연구였습니다. 발표자분께서 다양한 Negative 샘플링 기법과 Query-Positive-Hard Negative 구성을 통해 Contrastive Learning을 최적화하는 과정을 잘 설명해주셔서 인코더의 성능을 높이기 위한 접근 방식에 대해 깊이 이해할 수 있었습니다. 특히, 다양한 Task에 걸쳐 높은 성능을 발휘할 수 있는 범용 인코더를 구축하는 과정이 인상적이었고, 향후 NLP 분야에서 이러한 연구가 어떤 방식으로 활용될지 생각해보게 되는 유익한 시간이었습니다. 최신 트렌드와 실험 결과를 명확하게 소개해주셔서 감사합니다.
이번 세미나에서는 "Gecko: Versatile Text Embeddings Distilled from Large Language Models" 논문에 대하여 소개해주셨습니다. Gecko에서는 general text encoder를 구성하기 위해 LLM을 통해 web crawling 데이터를 filtering 하고 데이터를 구축하고 triplet loss를 통해 contrastive learning을 사용하여 학습하는 구조를 제안하였습니다. 또한 이때 Matryoshka Representation Learning (MRL)을 활용하였는데 2022년에 나온 MRL이 최근에 활용되는 경우가 늘어나고 있는 것 같습니다. 좋은 발표 감사합니다.
금일 세미나는 Gecko: Versatile Text Embeddings Distilled from Large Language Models 논문을 바탕으로 진행되었습니다. 해당 연구에서는 LLM을 이용한 Contrastive learning 방법에서의 학습 데이터 생성 및 정체 방법론과 함께, General text encoder 학습을 위한 contrastive learning 학습 방법론을 제안합니다. 최근 높은 성능의 LLM을 이용하여 task, domain, modality에서 synthetic data를 이용하여 학습하는 방법이 늘어가고 있는 상황입니다. 이때, Gecko에서는 Prompting을 통한 LLM 기반 encoder 학습 데이터 구축 방법론을 사용하고자, 데이터 생성 및 필터링의 2단계 구조를 차용하고 있습니다. 먼저, 데이터 생성 부분에서는 Web corpus 기반의 광범위한 query 및 task 생성을 진행하며, 필터링에서는 retriever 기반 positive/negative document를 정제합니다. 다음으로는 2단계의 general text encoder 학습을 위한 방법론을 제안합니다. 먼저 1단계 학습에서는 기존의 QA 및 web corpus 데이터를 이용하여 contrastive learning을 진행하며, 2단게에서는 기존 task 별 데이터셋 및 위의 방법으로 구축된 데이터셋인 FRet 데이터셋을 이용하여 학습을 진행합니다. 학습 데이터가 고갈되어가는 와중에, 학습 데이터를 만드는 방법이 최근 큰 관심을 끌고 있는 것 같습니다. 좋은 발표 정말 감사드립니다.
이번 세미나에서는 “Gecko: Versatile Text Embeddings Distilled from Large Language Models” 논문을 소개해주셨습니다. 이번 발표에서는 LLM을 활용한 contrastive learning 방법론을 중심으로, 텍스트 인코더의 최신 트렌드와 Encoder 학습 데이터 구축 방식을 다루었습니다. 특히 in-batch negatives, hard negatives 등의 다양한 네거티브 샘플링 기법과 prompting을 활용한 학습 데이터 생성 및 필터링의 2단계 구조가 인상적이었습니다. 이를 통해 범용적이면서도 성능이 뛰어난 텍스트 인코더를 구축하는 방법론에 대해 깊이 있는 통찰을 얻을 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Gecko: Versatile Text Embeddings Distilled from Large Language Models 에 대해 다루었습니다. 해당 논문에서는 대규모 언어 모델을 활용하여 텍스트 임베딩을 효율적으로 생성하고 최적화 하는 방법론을 제안합니다. 특히 대규모 웹 코퍼스를 바탕으로 쿼리 및 태스크를 생성하고 다양한 Negative 샘플링 기법을 통해 데이터를 정제하는 과정을 다룹니다. 이를 통해 인코더의 성능을 크게 향상시키는 방법을 제안합니다. Contrastive Learning의 핵심 요소인 Triplet 구성 (Query-Positive-Hard Negative) 방식이 효과적으로 활용되었으며, Pre-Finetuning과 Fine-Tuning의 2단계 학습을 통해 다양한 NLP 태스크에서 높은 성능을 발휘할 수 있는 텍스트 인코더를 구축하는 과정이 인상적이었습니다. 최신 연구 트렌드를 반영하여 일반화된 텍스트 인코더의 성능을 극대화하는 방법론을 파악할 수 있었던 유익한 시간이었습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 "Gecko: Versatile Text Embeddings Distilled from Large Language Models"에 대해 소개해주셨습니다. Gecko는 임베딩 모델로, LLM을 활용하여 높은 수준의 추론 능력과 텍스트 표현력을 실용적인 형태로 구현해냈다는 특징을 갖습니다. Gecko는 2가지의 지식 증류 단계를 갖습니다. 첫번째 단계에서는 LLM을 활용하여 다양한 쌍의 질의-응답 데이터를 생성하고, 두번째 단계에서는 이를 활용하여 관련 텍스트를 분류하고 평가하는 과정을 통해 학습 데이터를 정제하며 모델을 개선합니다. 이 과정에서 우수한 임베딩을 생성할 수 있었고, 이는 다양한 활용 가능성을 보였습니다. 이와 같은 효율적인 임베딩 모델과 효과적인 성능으로 Gecko의 실제 환경에 대한 응용 가능성을 이해해볼 수 있었던 것 같습니다. 매 발표에서 꼼꼼히 정리한 자료를 기반으로 좋은 지식을 나눠주셔서 감사드립니다.
이번 세미나에서는 대규모 언어 모델을 활용하여 텍스트 임베딩을 효율적으로 생성하고 정제하는 방법을 다룬 “Gecko: Versatile Text Embeddings Distilled from Large Language Models” 논문에 대해서 발표해주셨습니다. 해당 방법론은 Contrastive Learning 방식을 기반으로 하여, Triplet 데이터(Query-Positive-Negative)의 생성과 정제 과정을 상세히 설명니다. 이 논문은 데이터 생성 시 필요한 다양한 조건들을 LLM으로부터 추출하고, 이를 통해 높은 품질의 텍스트 인코더를 학습시킬 수 있는 기법을 제시하였습니다. 특히 다양한 NLP Task(분류, 군집화, 검색 등)에 대응할 수 있는 범용 인코더의 성능을 극대화할 수 있도록 돕는 부분이 인상깊었습니다. 이러한 방법은 텍스트 인코더의 범용성과 정확성을 크게 향상시키는데 기여하고, 다양한 NLP 태스크에서 우수한 성능을 보이는 인코더를 개발할 수 있는 기반을 마련하였다고 생각합니다. 논문을 통해 새로운 사전학습 패러다임을 알 수 있었으며, 이러한 방법론이 향후 NLP 분야에서 어떻게 활용될지에 대한 고찰을 해볼 수 있었습니다. 흥미로운 주제로 좋은 발표해주셔서 감사합니다.
본 세미나는 "Gecko: Versatile Text Embeddings Distilled from Large Language Models"라는 논문을 기반으로 진행되었습니다. 이는 LLM을 활용한 Contrastive learning 학습 데이터 생성 및 정제 방법론을 제안한 연구로, General text encoder 학습을 위해 contrastive learning 학습을 어떻게 하면 좋을지를 중점적으로 다뤘습니다. 가장 흥미로웠던 점은 Task별 negative sample 선택 방법론 활용 방안입니다. 데이터 생성 시 사용한 document가 최적의 positive sample아닐 수 있다는 점으로, 동일한 질문에도 답변이 되는 document가 많을 것이기 때문에 어떤 sample이 학습에 유의미한 negative sample인지 선택하는 것이 중요한 key point가 될 것이라고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나는 LLM을 가지고 Contrastive Learning을 수행해 인코더를 구축하는 최근 텍스트 인코더의 흐름 속에 학습 데이터 구축 방법 및 General Text Encoder 학습을 위한 Contrastive Learning 방법론을 제안한 “Gecko: Versatile Text Embeddings Distilled from Large Language Models”이라는 논문에 대한 발표를 중심으로 진행되었습니다. 먼저, Web Corpus에 기반해 광범위한 Query 및 Task를 생성하고 이후 Retriever에 기반해 Positive/Negative Document에 대한 정제 과정을 거쳐 FRet이라는 데이터셋을 제안합니다. 흥미로운 점은 기존에 Hard Negative Document에 대한 정제를 거치는 것에서 더해 정말 관련 있는 Document를 Positive로 활용하기 위한 정제 과정이 추가되었다는 점입니다. 또한 해당 데이터셋을 활용해 효과적인 학습을 하기 위해 Pre-Finetuning과 Fine-Tuning에 해당하는 2단계 학습을 통해 Gecko 모델을 제안합니다. 최근 디코더 기반의 오픈 소스 LLM을 인코더로 활용하는 연구가 진행되고 있음은 이전 세미나를 통해 확인했었는데, 이를 위해 Contrastive Learning을 어떻게 수행하고 또 이를 위한 벤치마크들은 어떻게 구성되는지 등 다양한 부분에 대해 알 수 있는 유익한 시간이었습니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나에서는 “Gecko: Versatile Text Embeddings Distilled from Large Language Models” 논문을 중심으로 대규모 언어 모델을 활용한 효율적인 텍스트 임베딩 생성 및 정제 방법에 대해 다루었습니다. 이 연구는 Contrastive Learning을 기반으로 Triplet 데이터(Query-Positive-Negative)를 생성하고 정제하는 과정을 상세히 설명했으며, LLM을 통해 다양한 조건을 추출해 높은 품질의 텍스트 인코더를 학습하는 기법을 제시했습니다. 특히 Hard Negative Sample 정제와 Positive Sample 최적화를 통해 텍스트 인코더의 성능을 극대화하는 부분이 매우 인상적이었습니다. 이 방법론은 다양한 NLP 태스크에서 범용성과 정확성을 높일 수 있으며, 새로운 사전학습 패러다임을 제시하는 중요한 연구였다고 생각합니다. 좋은 발표 감사합니다.
이번 세미나에서는 “Gecko: Versatile Text Embeddings Distilled from Large Language Models” 논문이 소개되었습니다. 이 연구는 대규모 언어 모델을 활용해 범용 텍스트 인코더를 학습시키기 위한 Contrastive Learning 기반 방법론을 제안하며, Web Corpus에서 Query, Positive, Hard Negative 샘플을 생성하고 Retriever로 정제해 데이터 품질을 높였습니다. Positive 샘플은 유사도가 높은 예시를 선별하고, Hard Negative 샘플은 더욱 정교하게 구성해 인코더의 일반화 성능을 강화했습니다. 학습은 두 단계로 진행되며, Pre-Finetuning 단계에서는 QA 데이터와 Web Corpus를 활용해 기본 성능을 구축하고, Fine-Tuning 단계에서는 FRet 데이터셋과 다양한 Task를 사용해 최적화했습니다. InfoNCE Loss를 변형해 대칭적과 비대칭적 Task에 모두 적합한 성능을 보여줬으며, 텍스트 인코더의 범용성과 정확성을 크게 향상시킨 점이 인상적이었습니다. 발표를 통해 Gecko의 혁신적인 접근 방식을 잘 이해할 수 있었으며, NLP 분야에서 이러한 기법의 활용 가능성에 대해 생각해볼 수 있는 유익한 시간이었습니다. 감사합니다!