[Paper Review] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

작성자
Saeran Park
작성일
2024-06-07 08:40
조회
1409
1. 제목: LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders (arxiv 2024)

2. 논문 링크: https://arxiv.org/pdf/2404.05961

3. 논문 코드: https://github.com/McGill-NLP/llm2vec

4.  인용 수: 10회 (2024/06/06, Google scholar 기준)

5.  요약: Decoder 기반의 LLM을 텍스트 임베딩 모델로 변환하는 간단한 학습 방법을 제안한 연구입니다. LLM2Vec는 1)bidirectional attention activation, 2)Masked next token prediction, 3)Unsupervised Contrastive Learning으로 구성되어 있습니다. 해당 방법론은 Massive Text Embeddings Benchmark(MTEB)에서 높은 성능을 달성했습니다.

6. 발표 자료 및 발표 영상:
  • 발표 자료: 하단 첨부
  • 발표 영상: ">링크
전체 20

  • 2024-06-09 11:16

    이번 세미나는 “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders” 에 대하여 소개해주셨습니다. 텍스트에 대한 임베딩 모델은 대부분 BERT와 같은 encoder를 기반으로 많이 연구가 되어왔지만 최근들어 LLM을 임베딩 모델로 활용하는 사례가 많아지고 있음을 알 수 있던 시간이었습니다. BERT 구조를 LLM 연구와 같이 데이터와 학습량을 늘리면 더 좋은 임베딩 모델로 사용할 수 있기에 LLM을 임베딩 모델로 사용하는 것이 어떤 장점을 가질 수 있는가라는 궁금증이 있었는데 세미나 시간 동안 scaling law에 대한 이야기와 MLM과 NTP의 학습 차이를 들어볼 수 있는 좋은 시간이었습니다. 좋은 발표 감사합니다.


  • 2024-06-09 14:16

    이번 세미나에서는 디코더 기반의 대규모 언어 모델을 효과적인 텍스트 임베딩 모델로 변환하는 방법론을 다룬 'LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders' 논문에 대해서 발표해 주셨습니다. 이 논문의 핵심은 세 가지 주요 기법인 Bidirectional Attention Activation, Masked Next Token Prediction, Unsupervised Contrastive Learning을 통합하는 것이었습니다. 이러한 기법들은 기존의 디코더만을 사용하는 언어 모델이 텍스트의 양방향 문맥을 효과적으로 파악하고 임베딩하는 데 한계가 있다는 점에서 출발합니다. 특히, Masked Next Token Prediction은 모델이 주어진 컨텍스트 내에서 다음에 올 토큰을 예측하도록 하며, 이 과정에서 모델이 텍스트의 전반적인 의미를 더 깊이 이해하도록 도우며 Unsupervised Contrastive Learning 방법은 다양한 텍스트 샘플들을 비교함으로써 모델이 보다 구별력 있는 특징을 추출한다는 점이 매우 인상깊었습니다. 이러한 접근 방식은 Massive Text Embeddings Benchmark (MTEB)에서 높은 성능을 입증하였으며, 텍스트 임베딩 분야에서의 새로운 가능성을 열어주었다고 생각합니다. 임베딩을 추출하는 것은 BERT와 같은 인코더 기반 모델이 가장 잘하는 분야라고 생각하였는데, 이번 세미나를 통하여 훨씬 더 큰 사이즈를 갖는 디코더 모델이 문장이나 단어의 임베딩을 더 잘 뽑아줄 수 있다는 것을 알게되었습니다. 유익한 발표 너무 감사드립니다.


  • 2024-06-10 00:08

    기존 디코더 전용 대형 언어 모델을 마치 잠들어 있던 거인을 깨우듯 강력한 텍스트 인코더로 변모시키다. 단순한 비지도 학습 단계를 통해 풍부한 문맥 표현을 섬세하게 직조해낸 이 논문은 언어 모델의 새로운 가능성을 제시하는 혁신적인 접근법을 보여준다.


  • 2024-06-15 19:41

    금일 세미나는 Decoder only 구조의 LLM을 이용하여 Text Encoder로 사용할 수 있는 학습 방법론을 제시한 LLM2VEC: Large Language Models Are Secretly Powerful Text Encoder 논문을 중심으로 진행되었습니다. 최근 Decoder only 구조를 가진 LLM이 다양한 태스크에서 높은 성능을 달성함에 따라 많은 발전을 이루었습니다. 하지만 문장 및 토큰 단위의 풍부한 Representation을 필요로 하는 Information Retrieval, Classification, Clustering과 같은 태스크에서는 여전히 Encoder 기반의 방법론들이 좋은 성능을 보이고 있습니다. 이에 대해서 본 연구에서는 Decoder Only 기반의 모델에 대해 1) Bi-directional Attention 구조 2) Masked Next Token Prediction 3) Unsupervised Contrastive Learning을 통해 다양한 NLU 태스크에 대해 높은 성능 달성이 가능하다고 주장합니다. 직관적으로 매우 잘 동작할 것으로 예상할 수 있는 학습 프레임워크이고, 그 원리 또한 매우 단순한 점이 인상적이었습니다. 다만 실제 시럼에 있어서는 Contrastive Learning이 성능 개선에 도움이 되는 모습을 확인하기 힘들었고, 이는 Contrastive Learning이 기존 BERT 크기의 연구들에서 큰 성능 개선이 가능하다고 밝힌 SimCSE와 다른 점이라고 할 수 있을 것 같습니다. 거대한 모델 크기와 이로인해 발생하는 모델 내부의 막대한 지식은 결국 Finetune 시에 많은 조정이 필요하지 않다는 점을 암시하는 것 같습니다. 향후 LLM을 이용하여 Zero-Shot Classification 및 다양한 NLU 태스크에 대한 일반화 성능 개선의 가능성을 확인할 수 있는 연구였습니다. 좋은 발표 감사드립니다.


  • 2024-06-18 11:23

    이번 세미나에서는 “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders”라는 연구를 중심으로 진행해 주셨습니다. 특정 토큰에 대한 임베딩 또는 시퀀스에 대한 임베딩 벡터를 산출할 때 기존에는 BERT를 필두로 Encoder-only Model이 주로 활용되었습니다. 이들은 Bi-directional Attention을 사용하여 LM의 Input 내 각 토큰에 대한 임베딩 벡터가 다른 토큰들에 대한 Attention도 반영하고 있기에 STS, IR 등 다양한 Task에 Encoder-only Model이 널리 활용되었습니다. 반면 Decoder-only Model은 Uni-directional Attention 구조를 띄기에 시퀀스의 마지막 토큰만이 앞 토큰들에 대한 Attention을 반영하고 있다는 점, 앞 쪽 토큰에 대한 Attention이 비교적 적게 반영된다는 구조적 특성으로 인해 임베딩 모델로는 잘 활용되지 않았습니다. 그러나, 최근 Decoder-only Model을 임베딩 모델로 활용하는 연구들이 수행되고 있습니다. 해당 연구에서는 Bi-directional Attention 구조, Masked Next Token Prediction, Unsupervised Contrastive Learning을 Decoder-only Model에 적용하여 NLU Task에서 성능 향상이 가능함을 실험적으로 보였습니다. 이전에 개인 연구를 하며 Decoder-only Model로 어떻게 하면 LM의 Input 전체에 대한 임베딩 혹은, 일부 Span에 대한 임베딩을 산출할 수 있을지 고민한 적이 있었는데 생각보다 직관적인 방법론으로 해결이 가능함을 이번 세미나를 통해 확인하여 특히나 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2024-06-19 10:23

    이번 세미나는 "LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders" 논문을 중심으로 진행되었습니다. 이전 연구들으 BERT와 같은 Encoder 모델의 CLS 토큰이나 시퀀스에 대한 임베딩 벡터를 산출하는 데 주로 사용되었습니다. 이 모델들은 Bi-directional Attention을 사용하여 각 토큰에 대한 임베딩 벡터에 다른 토큰들에 대한 Attention을 반영합니다. 반면, Decoder-only 모델은 Uni-directional Attention 구조로 인해 시퀀스의 마지막 토큰만이 앞 토큰들에 대한 Attention을 반영하며, 임베딩 모델로 잘 활용되지 않았습니다. 본 연구에서는 Bi-directional Attention 구조, Masked Next Token Prediction, Unsupervised Contrastive Learning을 Decoder로 구성된 LLM을 활용하여 텍스트 임베딩을 추출하는 방법론을 제안합니다. 임베딩 관련 연구에서 아직까지 Encoder-only 모델이 활발하게 활용되는 트렌드에서 해당 연구가 참신한 시도를 한 것 같습니다. 좋은 발표 감사합니다.


  • 2024-06-19 13:03

    이번 세미나에서는 "LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 연구는 Decoder 기반의 LLM을 효과적인 텍스트 임베딩 모델로 변환하는 새로운 방법론을 제안합니다. 논문에서 제안한 방법론의 핵심은 Decoder 모델이 단방향 문맥을 처리하는 데 집중되어 있다는 한계를 극복하고, 양방향 문맥을 효과적으로 학습할 수 있도록 설계된 것입니다. 먼저 Bidirectional Attention Activation을 통해 모델이 텍스트의 양방향 문맥을 동시에 고려할 수 있게 하여, 문장의 전체적인 의미를 더 잘 이해하도록 합니다. Masked Next Token Prediction은 Encoder와 Decoder의 특징을 모두 반영하여 모델이 주어진 문맥에서 다음에 올 토큰을 예측하도록 하여, 텍스트의 전반적인 의미를 파악하는 데 도움을 줍니다. 그리고 Unsupervised Contrastive Learning을 통해 다양한 텍스트 샘플을 비교함으로써, 모델이 더 구별력 있는 특징을 추출할 수 있도록 합니다. 이러한 접근 방식은 Massive Text Embeddings Benchmark (MTEB)에서 높은 성능을 입증하였으며, 디코더 기반 모델이 텍스트 임베딩 작업에서도 강력한 성능을 발휘할 수 있음을 보여주었습니다. 해당 연구는 최근 LLM이 주도하고 있는 흐름에서 텍스트 임베딩에도 LLM을 적용하는 연구였고, 이는 익숙한 형태가 아니라 낯설었지만, 신선한 연구였다고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-06-19 18:00

    이번 세미나에서는 “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders” 논문을 소개해주셨습니다. 본 연구는 큰 규모의 언어 모델들이 어떻게 우수한 텍스트 인코더로 활용될 수 있는지를 탐구합니다. 특히, 이 논문은 언어 모델의 디코더 부분을 이용하여 양방향 문맥 인식이 가능한 텍스트 임베딩 방법을 제안합니다. 연구진은 Bidirectional Attention Activation을 도입하여 양방향 문맥의 중요성을 강조하고, Masked Next Token Prediction을 통해 문맥에 기반한 토큰 예측 능력을 향상시키는 방법을 개발했습니다. 또한, Unsupervised Contrastive Learning을 활용하여 다양한 텍스트 간의 의미적 차이를 더 명확히 구분짓습니다. 이러한 혁신적인 접근 방식은 대규모 텍스트 임베딩 벤치마크(MTEB)에서 뛰어난 결과를 보여주었습니다. 전체적으로, 이 연구는 LLM을 텍스트 임베딩의 새로운 가능성으로 탐구하며, 그 잠재력을 확인시켜 주었습니다. 좋은 발표 감사합니다.


  • 2024-06-20 00:21

    이번 세미나에서는 LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders이라는 논문을 다루었습니다. 해당 연구는 Decoder-only 모델을 텍스트 임베딩에 효과적으로 활용하는 방법론을 제안합니다. 내용 중에서 Bidirectional Attention Activation과 Masked Next Token Prediction 기법이 인상적이었으며, Unsupervised Contrastive Learning을 통해 다양한 텍스트 간의 구별력을 높인 점이 좋았습니다. 좋은 발표 감사합니다.


  • 2024-06-20 10:39

    금일 세미나는 LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders 논문을 바탕으로 진행되었습니다. 해당 세미나에서는 Text embedding을 위한 Decoder only model에 관한 연구를 소개해 주었습니다. 기본적으로 Text embedding을 하면, BERT와 같은 bidirectional encoder를 이용하는 방법을 생각할 수 있는데, 최근 연구의 동향은 Decoder only 모델로 연구의 방향이 움직이고 있으며, 이에 대한 이유는 Encoder-only 모델의 학습에 이용되는 Masked Language Modeling을 사용한다면 동일한 학습 데이터의 크기라도 더 적은 학습이 이루어지기 때문입니다. 제안 방법론인 LLM2Vec에서는 더 효과적인 Decoder based text encoder를 만들고자 3가지 학습 방법을 제안합니다. 가장 먼저 all-ones 기반의 bidirectional atteiton을 이용하고 있습니다. 또한, Masked Language Modeling과 Next Token Prediction을 통합한 Masked Masked Next Token Prediction(MNTP)를 이용합니다. 마지막으로, SimCSE에서 사용하는 Unsupervised Contrastive Learning을 통하여 학습을 진행합니다. 사실 제안하는 방법론 자체는 기존에 존재했던 방법론들을 혼합한 것 뿐이라는 생각이 들었지만, 해당 연구의 의의를 실험을 통해서 잘 보여주었다는 생각이 들 정도로 다양한 실험과 분석을 진행하였다는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.


  • 2024-06-20 20:21

    금일 세미나는 'LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders'라는 논문을 소개해 주셨습니다. 최근 Decoder-only model을 Embedding 용으로 사용하기 시작한 흐름에 맞춰 좋은 논문을 소개해 주셨습니다. Decoder-only 모델은 사전학습시에 기존 BERT와 같은 일부 Masking token만 학습하는 것이 아닌 모든 Input Token들을 학습했다라는 점에서 다양한 Task에 범용적으로 Embedding Model로써 활용이 가능하다라고 시작하고 있습니다. 해당 논문에서는 어떠한 Decoder 모델이든 Text Encoder로 활용이 가능한 Recipe를 제안하고 있으며 크게 3가지로 나뉘어 지고 있습니다. 먼저 1) Enabling Bidirectional Attention에서는 기존 Decoder의 Causal Attention 대신 Bidirectional Attention을 사용하며 Causal Attention Mask 대신 All-ones Matrix를 사용하는 방법을 제시하고 있습니다. 2) Masked Next Token Prediction (MMTP)에서는 MLM과 NTP를 결합하여 [MASK} Token 직전의 Representation을 이용하여 loss를 계산하는 방법을 제시하고 있으며 마지막 3) Unsupervised Contrastive Learning에서는 SimCSE와 유사하게 같은 문장을 2번 Embedding하되, 각 Encoding은 다른 Dropout을 적용하는 방식을 제안하고 있습니다. 해당 연구를 보면서 Word-level task와 Seuqunce-level task에서 성능 차이가 날 것으로 예상이 되었는데 두 가지 부분에서 충분한 성능 향상을 보여주며 해당 방법론이 정말 유의미할 정도로 LLM이 많은 Knowledge를 보유하고 있다는 것을 다시 한번 알 수 있게 되었습니다. 좋은 발표 감사드립니다!


  • 2024-06-21 17:37

    이번 세미나에서는 NLP 분야의 텍스트 임베딩을 BERT 기반의 Encoder 아키텍처가 아닌, GPT 기반의 Decoder 아키텍처로 진행하는 방법론을 다루고 있는 [LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders] 논문을 중심으로 진행되었습니다. Decoder Model의 Scaling Laws의 장점을 take advantage하기 위해 전통적으로 Encoder 기반의 모델을 사용하여 진행했던 Task에 Decoder Model을 사용하는 접근을 최근에 많이 하는 것 같습니다. 대표적으로는, 저번 세미나에서 소개되었던 IR에 Decoder Model을 사용하는 등이 있겠습니다. Decoder Model을 사용하여 텍스트를 임베딩 하는 것의 장점은, Scaling Laws 뿐만 아니라, ICL등 요즘 많이 연구되고 있는 Decoder Model의 성능을 높이기 위한 방법론들과 동시에 사용될 수 있다는 점도 있습니다. 예를 들어, 텍스트 임베딩을 진행할 때, 단순히 해당 텍스트에 대한 representation을 뽑고 Contrastive Learning을 하는 것이 아니라, Task에 맞는 Instruction과 함께 텍스트를 임베딩 시켜서 그 성능을 더욱 높일 수도 있겠습니다. 관련하여, LLM2VEC은 Decoder Model로 텍스트 임베딩을 할 때 추가로 그 성능을 높이기 위한 방법론들을 제시합니다. 예를 들어, Decoder Model은 다음 토큰을 생성하는 Task를 학습하기 때문에 계단식의 Masking을 구성하여 훈련하는데, 이러한 학습방법으로 Pretrain이 되었더라도 Text Embedding의 경우, 더이상 다음 토큰을 생성할 필요는 없기 때문에 그러한 Masking을 제거하는 것으로 Bi-directionality를 가져옵니다. 또한, 이로 인해 Masked Language Modelling도 일종의 auxiliary task로 수행할 수 있게 되었기 때문에, NTP와 MLM을 추가로 Text Embedding Objective와 함께 학습힙니다. 아이디어 자체는 쉽게 생각할 수 있으나, 이러한 아이디어를 실제로 구현하고 준수한 성능을 뽑아내는 것 또한 연구자로서 중요한 능력이라는 생각이 들고, 실제로 많은 추가적인 Decoder Model Text Embedding의 기준점이 될 수 있는 논문이라고 생각합니다. 재밌는 논문 소개해주셔서 감사합니다!


  • 2024-06-21 21:50

    해당 세미나는 "LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders"라는 논문을 바탕으로 진행되었습니다. 본 논문은 Decoder-only LLM을 Text Embedder로 사용가능한 unsupervised method를 제안한 것이 특징입니다. 특히 Enabling Bidirectional Attention, Masked Next Token Prediction, Unsupervised Contrastive Learning(SimCSE)라는 핵심 3가지 구조를 제안하였습니다. 가장 인상 깊었던 점은 다양한 실험을 통해서 해당 방법의 효과성을 입증했다는 것과 성능에 대한 분석을 위한 ablation study 구성이 좋았습니다. 마지막으로 Unsupervised Learning으로 구성된 방법이기에 현실에 적용하기 좋은 방법론이라고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-06-21 23:23

    이번 세미나는 Decoder 모델에 기반한 텍스트 임베딩을 제안하는 “LLM2Vec: Large Language Models Are Secretely Powerful Text Encoders"라는 논문을 중심으로 진행되었습니다. 처음 논문 제목을 본 순간부터 흥미를 불러일으켰던 발표였는데, 기존 텍스트 임베딩에서 활용했던 양방향 문맥에 대한 학습을 기반으로 하는 BERT와 같은 Encoder 기반의 모델과 비교했을 때 단방향 문맥을 학습하는 GPT와 같은 Decoder 기반 모델들이 텍스트 임베딩을 생성하는데 가지는 장점이 무엇일까에 대한 의문을 가졌었습니다. 이러힌 의문점들들 해결하기 위해 해당 논문에서는 Enabling Bidirectional Attention, Masked Next Token Prediction, Unsupervised Contrastive Learning이라는 3가지 핵심 구조를 설계했고, 다양한 실험들과 Ablation Study를 통해 그 효과성을 입증했습니다. 누구나 막연하게 생각할 수 있는 것을 구체화해 이를 설계하고, 준수한 성능을 보여주는 것이 앞으로 연구자로써 저 또한 많은 부분을 배워야한다는 생각이 들었습니다. 향후 LLM2Vec을 더 개선시캬 어떤 Decoder 기반의 텍스트 임베딩 모델이 설계될지 기대가 됩니다. 좋은 발표 해주셔서 감사합니다.


  • 2024-06-21 23:34

    이번 세미나에서는 LLM을 활용한 텍스트 임베딩을 구하는 방법론을 소개해주셨습니다. 대부분의 LLM은 흔히 얘기하는 디코더 구조로 이루어졌기 때문에 지금까지 많이 활용했던 BERT와 같은 인코더로 구성된 모델과의 차별점이 무엇인지가 중요합니다. 이에, Masked Token Prediction을 수행하지 않아도 된다는 점이 강조되고 있습니다. 소개해주신 LLM2Vec은 라마 모델을 Bidirectional Attention, Masked Next Token Prediction, 그리고 unsupervised 대조학습 등을 통해 학습하는 프레임워크를 제안하고 있습니다. 한 가지 질문이 떠오르는데, 만약 LLM을 활용할 수 있는 상황이라면 임베딩 생성을 위해서만 활용하기에는 소위 아깝지 않은가 싶습니다. 아직 BERT 임베딩을 뛰어넘는 이점이 확연히 드러나지 않아서 덜 알려진 것 같습니다. 그러나 충분히 실제로 활용해볼 필요가 있는 텍스트 인코더 방법이라는 점에는 전적으로 동의합니다. 유익한 내용 준비해주셔서 감사합니다.


  • 2024-06-19 13:51

    오늘의 세미나에서 "LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders"라는 논문을 중심으로 발표가 이루어졌습니다. 이 논문은 대규모 언어 모델들이 단순히 생성 작업뿐만 아니, 복잡한 텍스트 임베딩에 있어서도 상당한 잠재력을 지니고 있음을 보여줍니다. 특히, 비대칭 양방향 주의 메커니즘(Bidirectional Attention), 마스킹된 다음 토큰 예측(Masked Next Token Prediction), 그리고 감독되지 않은 대조 학습(Unsupervised Contrastive Learning) 등의 기법을 사용하여 LLM의 임베딩 능력을 극대화한 점이 인상적이었습니다. 또한, 이 논문은 다양한 NLP 작업에서의 적용 가능성을 실험을 통해 입증함으로써, 기존 인코더-만을 사용하는 방식에 비해 어떤 면에서 우월한지를 명확하게 밝혔습니다. 비록 LLM을 활용한 접근 방식이 기존 방법들에 비해 어려운 측면이 있지만, 이러한 노력이 결국에는 더 효과적인 텍스트 처리 방법론을 발전시키는 데 크게 기여할 것임을 느낄 수 있는 시간이었습니다. 좋은 발표 감사드립니다.


  • 2024-06-24 00:18

    이번 세미나에서는 “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders”에 대해 소개해주셨습니다. 해당 논문 소개에 앞서, 임베딩과 관련된 기존 연구에 대한 설명을 해주셨습니다. 최근 주목받은 LLM들은 대체로 decoder-only의 형태를 갖습니다. 그 이유로 encoder-only 모델의 경우에는 scaling law의 효과가 적용되지 않기 때문으로 이해할 수 있었습니다. distillation으로는 encoder-only 모델에서 성능 향상의 효과가 있었으나, 모델이나 데이터의 크기를 키우는 것이 높은 성능으로 이어진다는 경향성이 나타나지 않는다는 점입니다. pretraining 혹은 scaling law가 bert와 같은 모델에서 성능 향상으로 이어지지 못했고, 이에 따라 scaling law의 효과가 적용되어 모델의 크기가 커질수록, 데이터의 크기가 커질수록 높은 성능을 내는 decoder-only 모델을 통해 LLM 연구가 활발히 진행되고 있다고 볼 수 있었습니다. LLM2Vec은 Bidirectional Attention, Masked Next Token Prediction, Unsupervised Contrastive Learning의 3가지 단계로 임베딩을 도출하는 방법론이었습니다. LLM의 임베딩과 관련하여 일련의 과정을 순차적으로 설명해주시어 이를 이해해볼 수 있었던 것 같습니다. 유익한 발표 감사드립니다.


  • 2024-06-24 05:36

    이번 세미나에서는 "LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders" 논문을 소개해주셨습니다. 먼저 임베딩 관련 기존 연구를 설명해주셨는데, 최근 주목받는 LLM들이 주로 decoder-only 형태인 이유는 encoder-only 모델에서는 scaling law가 적용되지 않기 때문이라는 점을 알게 되었습니다. LLM2Vec은 Bidirectional Attention, Masked Next Token Prediction, Unsupervised Contrastive Learning의 세 단계를 통해 임베딩을 도출하는 방법론으로, 발표 덕분에 이를 잘 이해할 수 있었습니다. 좋은 발표 감사드립니다.


  • 2024-06-24 17:49

    이번 논문 세미나는 임베딩 모델이 BERT 뿐만 아니라 Decoding 기반 모델을 사용한 임베딩에 대해 소개해주셨습니다. 디코딩 기반 모델을 사용함으로써 이점은 다양한 task에서 범용적으로 사용 가능하다는 점입니다. 오늘 소개한 LLM2Vec 방식은 3가지 주요 방식이 포함되어 있습니다. Enabling Biirectional Attention, Masked Next Token Prediction, Unsupervised Contrasive Learning 입니다. 임베딩 관련하여 decoder 모델이 갖는 부족한 부분을 보완하기 위한 다양한 방법을 시도하며 고민한 부분이 좋았습니다. 좋은 논문 소개해주셔서 감사합니다.


  • 2024-06-21 23:35

    이번 세미나는 "LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders" 논문을 주제로 진행되었습니다. 이 논문은 Decoder-only LLM을 텍스트 인코더로 활용하는 방법을 제안하였습니다. 연구에서는 Bi-directional Attention, Masked Next Token Prediction, Unsupervised Contrastive Learning 등을 통해 높은 성능을 달성할 수 있음을 보여주었습니다. 특히 Massive Text Embeddings Benchmark (MTEB)에서 우수한 성능을 입증했으며, 간단하고 직관적인 학습 프레임워크가 인상적이었습니다. 하지만 실제 실험에서는 Contrastive Learning의 성능 개선 효과가 크지 않았습니다. 이 연구는 LLM을 활용한 다양한 NLU 태스크에서의 가능성을 제시하며, 향후 Zero-Shot Classification 등에서의 활용 가능성을 보여주었습니다. 좋은 발표 감사합니다.


전체 513
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11050
관리자 2020.03.12 0 11050
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9692
관리자 2020.03.12 0 9692
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10782
관리자 2020.03.12 0 10782
510
New [Paper Review] Theory of Everything (About Sequence Modeling with DL Models…)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 7
Jaewon Cheon 2025.06.27 0 7
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (15)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 203
Minjeong Ma 2025.06.07 0 203
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 36
Minjeong Ma 2025.06.02 0 36
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 33
Kiyoon Jeong 2025.06.02 0 33
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 33
Woongchan Nam 2025.06.02 0 33
505
비밀글 [Rehearsal] 석사학위 논문심사 - 이상민 (21)
SangMin Lee | 2025.06.02 | 추천 0 | 조회 34
SangMin Lee 2025.06.02 0 34
504
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (13)
Siyul Sung | 2025.05.31 | 추천 0 | 조회 294
Siyul Sung 2025.05.31 0 294
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 298
Woojun Lee 2025.05.20 0 298
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 279
Jinwoo Park 2025.05.16 0 279
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im | 2025.05.15 | 추천 0 | 조회 258
Hun Im 2025.05.15 0 258

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호