[Paper Review] Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

Paper Review
작성자
Saeran Park
작성일
2023-07-11 05:02
조회
3431
  1. 논문 제목: Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning.
  2. 논문 링크: 바로가기
  3. 논문 Overview
    • Few-shot In-Context Learning(ICL)은 모델 파라미터의 업데이트 없이 unseen task를 수행할 수 있습니다. 하지만, ICL의 computation과 memory를 지적하며 Parameter-efficient fine-tuning(PEFT) 방법론인 (IA)^3를 제안하고, T0를 base model로 사용하여 (IA)^3와 두가지 loss function 적용한 T-few라는 방법론을 제안합니다. T0 mixture dataset 평가에서 T-few가 GPT-3 157B few-shot learning보다 6% 앞서는 성능을 보여줍니다.
    • (IA)^3는 self-attention의 value와 key에 rescaling역할을 하는 learnable parameter를 추가하고, intermediate activation 역할을 하는 learnable parameter를 학습하는 방법입니다.
    • T-few는 multitask로 prompted dataset으로 fine-tuned 모델인, T0에 (IA)^3 방법론을 적용하고 unlikelihood training과 length normalization에 대한 loss를 추가하여 학습하는 방법입니다.
  4. 발표 자료 : 하단 첨부
  5. 발표 영상 : ">바로가기
전체 20

  • 2023-07-13 21:47

    금일 세미나 시간에는 “Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning” 논문을 주제로 multi-task를 수행해야 하는 상황에서 기존 In-context Learning의 단점을 보완한 parameter-efficient Fine-tuning에 대하여 다루어 보았습니다. 일반적으로 In-context Learning은 적은 수의 training examples을 통해서 사전 학습된 언어모델이 gradient 기반의 학습 없이도 이전에 보지 못한 작업들을 수행 가능하도록 하는 상황에서 활용됩니다. 하지만 이러한 In-context Learning은 예측을 수행할 때 요구되는 계산량과 메모리, 그리고 스토리지 측면에서 비효율적이라고 해당 논문에서 주장하고 있습니다. 이러한 문제점을 보완하기위해서 최근에는 adapter modules, prompt tuning, sparse update methods로 대표되는 Parameter-efficient fine-tuning(PEET) 방법론들이 제안되고 있습니다. 해당 논문에서는 상기 서술한 Few-Shot ICL 과 이러한 PEET방법론들 과의 비교를 통해서 후자의 경우가 성능과 효율성 측면에서 더 나은 것을 보여주었습니다. 본 논문에서 제안한 IA^3 는 학습된 벡터를 attention 연산과정에서 key와 value의 rescale을 수행하고, feed-forward 과정사이에 position-wise inner activation을 수행하게 합니다. 이를 통해서 적은 수의 파라미터 추가를 통해서 기존 ICL 보다 더 나은 성능을 보여주었습니다. 개인적으로 이번 세미나 시간을 통해서 ICL과 FEET에 대한 개념을 처음 접하였는데, 준비된 예시들이 이를 이해하는데 많은 도움이 되었습니다. 해당 논문에서 주장하는 ICL에서의 단점과 FEET의 효율성과 성능에서 보여준 장점들이 해당 논문의 높은 인용수로 이어지지 않았나 생각됩니다. 첫 세미나임에도 불구하고 해당 시간을 잘 이끌어준 발표자에게 감사의 말 전하며 후기를 마칩니다.


  • 2023-07-19 15:38

    이번 세미나에서는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning 이라는 논문을 다루었습니다. 이 논문에서는 IA3(Infused Adapter by Inhibiting and Amplifying Inner Activations)라는 모델을 제안합니다. IA3는 attention 계산시의 key와 value vector의 값을 rescaling해주고 position-wise feed-forward network에 intermediate attention을 추가하는 방식으로 파라미터를 추가합니다. Loss function으로는 unlikelihood loss와 length-normalized loss를 추가합니다. Unlikelihood loss는 incorrect choice sequence에 낮은 확률을 부여하여 rank classification의 성능을 향상시킴으로써 올바른 방향으로 prediction이 수행되는 효과를 수반합니다. 또한 length-normalized loss는 짧은 길이의 answer에 더 많은 probability가 부여되는 경향성을 해결하기 위해 추가됩니다. IA3는 T0 데이터로 사전학습됩니다. Few-shot sample에 대해 학습을 함으로써 모델 성능이 개선될 수 있다는 점이 인상적이었습니다. 다만 실험 종류와 양이 다소 부족하다고 느껴져 아쉬웠습니다. 발표 자료에서 최대한 쉽게 이해시키기 위한 발표자 분의 노력을 알 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-07-21 16:34

    이번 세미나에서는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning 논문을 다루어 주셨습니다. 기존 prompt tuning의 경우 라벨링된 데이터가 적은 상황에서의 연구가 부족하였기에, 소량의 데이터를 이용하면서도 in-context learning보다 좋은 성능을 낼 수 있는 few-shot parameter-efficient fine-tuning이 등장하게 되었습니다. parameter-efficient fine-tuning은 학습시 적은 수의 파라미터를 이용하고 있으며, 새로운 task에 대해 높은 성능을 보이고 있습니다. 또한, mixed-task batches의 이용이 가능하다는 장점이 있습니다. 본 논문에서 제시하고 있는 IA^3( Infused Adapter by Inhibiting and Amplifying Inner Activations)은 크게 두가지 단계로 이루어지게 됩니다. 첫번째 단계에서는 attention 매커니즘을 이용하여 key와 value값에 대한 벡터를 rescale 시켜줍니다. 다음 단계에서는 position-wise feed-forward network에 intermediate activation을 적용하고 있습니다. 1A^3의 경우, 기존에 입력에 추가되는 soft prompt token 개수를 조정하는 prompt tuning과 달리 추가되는 파라미터 개수를 조정할 필요가 없다는 장점이 있습니다. loss 함수에서는 unlikelihood training과 length normalization을 이용하여 식이 구성되는 모습을 확인할 수 있습니다. 실험 결과에서 Held-out T0 데이터셋과 RAFT 벤치마크 데이터셋에 대한 결과를 공유해주셨는데, 해당 부분에서 각각 T0의 zero-shot generalization 능력이 T-few를 적용함으로써 얼마나 성능이 향상되었는지, 실세계에 적용시 얼마나 효과적인지 확인이 가능하였습니다. background부분에서 in-context learning의 등장과 함께 다양한 예시들을 잘 들어주셔서 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다!


  • 2023-07-23 23:14

    본 세미나는 박새란 발표자님의 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning"이라는 논문을 바탕으로 진행되었습니다. 해당 논문에서 제시하는 기여점은 기존 PEFT 방법론들은 하이퍼 파라미터 튜닝에 따라 결과 차이가 크기 때문에, 하이퍼 파라미터 튜닝을 최소화하고 실용적인 방법을 제안했다는 점입니다. 따라서 T-few라는 방법론이 크게 IA^3와 Loss function으로 나눠지고 제안한 구조가 왜 필요한 지 논문에서 잘 서술 되어 있어 좋은 논문이라는 생각이 들었습니다. 먼저 IA^3 방법론은 기존 PEFT 방법론이 initialization에 민감하기 때문에, 사전학습의 필요성을 배경으로 삼아 제안하고 있고 loss function 부분은 coreect answer에 대한 확률은 최대화하고 incorrect answer에 대한 확률은 최소화하는 점을 배경으로 내세우고 있습니다. 따라서 T-few라는 방법론이 기존 문제점들을 정확히 꼬집고 있고 해결한 점이 critical하다고 생각하였습니다. 마지막으로 발표자님께서 Introduction 부분에서 LLM의 등장과, In-context learning, PEFT가 등장하게 된 배경을 말해주셔서 본 논문의 방법론인 T-few가 왜 필요한지 어떤 차이점이 있는지 더 깊게 와닿았습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2023-07-24 08:58

    이번 세미나는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning 이라는 논문을 주제로 진행되었습니다. 본 논문에서는 기존의 In-context Learning의 한계점을 극복하기 위한 새로운 parameter-efficient fine-tuning 방법에 대해 소개하였습니다. 이 방법은 적은 양의 학습 데이터를 사용하여 높은 성능을 발휘하며, 계산 효율성과 메모리 사용량 면에서도 뛰어난 결과를 보여줍니다. 논문에서 제안된 IA^3 모델은 attention 과정에서 key와 value 벡터의 rescale 작업과 position-wise feed-forward network에 intermediate activation을 적용하는 방식으로 구성되어 있습니다. 이를 통해 기존 In-context Learning보다 더 나은 성능을 달성하였습니다. 또한, 실험 결과를 통해 본 논문에서 제안한 방법의 효과와 실용성을 확인할 수 있었습니다. 발표자님께서는 본 논문의 내용을 이해하기 쉽게 설명해주셨으며, 다양한 예시들을 통해 개념을 명확하게 전달하였습니다. 좋은 발표 감사합니다.


  • 2023-07-24 13:28

    이번 세미나는 "Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning" 논문을 주제로 진행됐습니다. 해당 논문은 나날이 증가하는 언어 모델의 크기를 보다 효율적으로 조절하면서도 GPT-3 수준의 성능을 달성할 수 있는 T-Few 모델을 제안합니다. 해당 모델은 어텐션에서 사용되는 key와 value를 rescale & FFNN 이전 레이어에 activation을 추가하는 IA^3를 파라미터 수 조정을 위해 사용합니다. 또한, PEFT 방법론은 initialization에 민감하다는 점을 고려하여 T0 mixture dataset을 이용하여 IA^3를 사전학습합니다. 이러한 방법론을 적용한 결과, T-Few는 T5보다 파라미터 수는 적으면서도 In-context Learning보다 우수한 성능을 달성하였습니다. 친절하고 자세한 발표 덕분에 매우 흥미로운 내용을 잘 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-07-24 15:47

    이번 세미나에서는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning이라는 제목의 논문이 소개되었습니다. 거대언어모델(Large Language Model, LLM)의 등장으로 LLM 하나만 있으면 여러가지 과업을 모두 해낼 수 있다는 사실이 많은 연구를 통해 입증되고 이제는 실생활에서 사용되고 있기까지 합니다. 허나, LLM의 크기가 너무나 거대한 나머지 실제로 학습을 하기에는 이에 걸맞는 자원이 갖추어지지 않으면 사실상 불가능합니다. 따라서 학계에서는 아무래도 현존하는 LLM의 성능에 걸맞는 크기가 작은 언어모델을 어떻게 구현할까에 대한 질문을 던지고 답을 찾아가고 있습니다. 대표적인 방법으로 In-Context Learning과 Parameter-Efficient Fine-Tuning(PEFT)이 있습니다. In-Context Learning은 마치 Few-shot Learning과 비슷한 개념으로 모델의 학습이 별도로 필요하지는 않지만 정확한 샘플이 충분히 존재하지 않을 시 효과를 볼 수 없습니다. PEFT는 모델의 일부 parameter만 학습하는 것이 핵심입니다. 이에 본 논문에서는 In-Context-Learning에 비해 의미있는 PEFT가 되기 위해 prompt-tuning을 통한 mixed-task batches 구축으로부터 아이디어를 얻은 IA3(Infused Adapter by Inhibiting and Amplifying Inner Activations)라는 방법론을 제시합니다. 기본적으로 T0 모델을 base 모델로 삼아 IA3로 사전학습 한 후 세 가지의 손실 함수(language modeling loss, unlikelihood loss for incorrect choice, length-normalized loss)를 이용해서 전체 모델을 학습합니다. 어느새부터 자연어처리 분야에 거리감이 느껴지고 마치 갑자기 내용이 몇 단계의 수준을 뛰어 넘은 것 같습니다. 그러기에 중요한 개념들을 미리미리 잘 확인하고 알아두어야 겠다는 필요성을 다시금 느끼게 되었습니다. 첫 발표 고생 많았습니다.


  • 2023-07-25 11:58

    본 세미나에서는 Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning 이라는 주제의 논문에 대한 리뷰를 진행하였습니다. LLM의 도입으로 효과적인 LLM 학습을 위한 다양한 방법론들이 제안되고 있으며, 그 중에서도 큰 축을 차지하는 부분이 PEFT 방법론들 입니다. 본 논문에서는 Few-shot In-Context Learning(ICL)은 모델 파라미터의 업데이트 없이 unseen task를 수행할 수 있지만, ICL의 computation과 memory를 지적하며 Parameter-efficient fine-tuning(PEFT) 방법론인 (IA)^3를 제안하고, T0를 base model로 사용하여 (IA)^3와 두가지 loss function 적용한 T-few라는 방법론을 제안하였습니다. 해당 방법은 통해 T0 mixture dataset 평가에서 T-few가 GPT-3 157B few-shot learning보다 6% 높은 성능을 기록하였습니다. 이러한 (IA)^3는 self-attention의 value와 key에 rescaling역할을 하는 learnable parameter를 추가하고, intermediate activation 역할을 하는 learnable parameter를 학습하는 방법입니다. 또한 T-few는 multitask로 prompted dataset으로 fine-tuned 모델인, T0에 (IA)^3 방법론을 적용하고 unlikelihood training과 length normalization에 대한 loss를 추가하여 학습하는 방법입니다. LLM 학습을 위한 PEFT 방법론이 앞으로 더 다양하게 나올 것이라 예상되고 관련된 논문에 대한 리뷰를 다뤄주셔서 재미있게 들었습니다. 좋은 발표 감사합니다.


  • 2023-07-25 17:04

    이번 세미나에서는 “Few-shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning”라는 연구를 소개해주셨습니다. 해당 논문에서는 새로운 PEFT 방법론인 IA^3를 제안했습니다. IA^3는 Language Model의 모든 파라미터들을 각 Downstream Task마다 업데이트하는 대신, Attention Mechanism 과정에서 적은 파라미터를 추가하여 해당 파라미터들만을 업데이트하는 방식으로 Computational Cost를 낮추었습니다. 이전에 제안되었던 대표적인 PEFT 방법론인 Prompt Tuning의 경우 Soft Prompt Token 개수가 하이퍼 파라미터로 사용자가 Tuning을 해야할 대상이었으나 IA^3는 이러한 추가적인 하이퍼 파라미터 튜닝을 필요로 하지 않는다는 비교 우위를 보였습니다. 그러나 타 PEFT 방법론들이 그렇듯이 IA^3 또한 Weight Initialization에 민감해 Pre-train을 별도로 진행한다는 점에서 아직 PEFT 방법론의 Initialization 관련 한계는 지니고 있다고 느껴졌습니다. PEFT 관련 방법론들에 대해 늘 관심이 있었는데 새로운 방법론을 소개해주셔서 매우 흥미롭게 들을 수 있었습니다. 동기분들 중에서 첫 세미나임에도 불구하고 발표 자료 구성 및 발표 모두 좋았습니다. 좋은 발표 감사드립니다.


  • 2023-07-25 17:32

    이번 세미나는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning 논문을 바탕으로 진행되었습니다. 해당 논문은 기존의 Multi-task를 수행하기 위한 In-context Learning 상황에서 발생하는 여러 단점을 보완하고자 하는 Parameter Efficient Fine-tuning에 대해서 다루고 있습니다. 먼저 In-context learning은 Examples를 통해 Context를 이해하고, Task를 수행할 수 있도록 하는 방법입니다. 그러나 이러한 Task를 추론하기 위한 Computational cost가 굉장히 높음과 동시에 여러 단점이 존재하기 때문에, Parameter-efficient Fine-tuning이 제안되었습니다. 이는 LM을 이용함에 있어서 효율적인 Fine-tuning을 위하여 Trainable한 parameter 수를 줄이는 학습 방법으로, Prompt tuning이나 Few-shot setting 기반의 연구가 존재합니다. 해당 논문에서 제시하는 IA3은 기존 Prompt tuning에서 Soft prompt token을 사용자가 지정해주어야 하는 Hyper parameter라는 단점을 극복하였으며, Language Model의 모든 Parameter들을 각 Downstream Task마다 업데이트하는 대신 Attention 과정에서 몇 Parameter들을 추가하여 해당 Parameter들만 업데이트하는 방식으로 진행하여 기존 연구들의 단점이었던 Computational cost를 낮추고 있는 모습을 보이고 있습니다. 첫 세미나임에도 불구하고, 자세한 설명과 함께 다양한 예시를 들어주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2023-07-25 20:10

    이번 세미나는 논문 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning"에 대해 다루어주셨습니다. 방대한 dataset을 통해 학습된 LLM을 통해 여러 downstream task를 수행하기 위한 여러가지 연구들이 진행되고 있는데, In-Context learning 또한 그 중 하나로 prompt의 내용을 LLM 모델이 이해하고 그에 따른 적절한 답변을 도출하는 task를 의미합니다. LLM은 그 특성상 학습 비용이 매우 높기 때문에 이를 해결하기 위해 PEFT 즉 parameter를 효율적으로 finetunning하여 높은 성능을 내기 위한 연구들이 제안되었는데, 본 논문에서는 IA3라는 학습 방법론을 제안했습니다. IA3는 학습 파라미터의 수를 줄임으로써 전체 파라미터를 학습하지 않도록 효율성을 개선했습니다. IA3에서는 학습 파라미터를 임의로 추가하여 해당 파라미터만 tunning함으로써 학습 비용을 개선하였는데, self-attention 과정에 개입할 수 있는 파라미터를 추가해 학습하는 것으로 fine tunning의 효과를 보일 수 있다는 것을 실험적으로 보여주었습니다. Large Model들의 등장으로 LLM 말고도 CLIP와 같이 다양한 영역에서 이런 pre-trained된 Large Model을 어떻게 효과적으로 fine tunning하여 성능을 낼 수 있을지에 관한 연구가 활발하게 이루어지고 있는 것 같습니다. 이번 세미나를 통해 LLM과 관련해 어떤 연구들이 진행되는지 흐름을 알 수 있어 좋았습니다. 발표 감사드립니다.


  • 2023-07-25 20:32

    이번 세미나에서는 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning"이라는 논문에 대해 소개되었습니다. 이 논문에서는 Few-shot In-Context Learning (ICL)이라는 방법이 모델 파라미터의 업데이트 없이 새로운 작업을 수행할 수 있는 장점을 가지고 있지만, 그렇다고 해서 ICL이 계산과 메모리 측면에서 비효율적이라는 문제점이 지적되었습니다. 이에 논문은 Parameter-efficient fine-tuning (PEFT) 방법론인 (IA)^3를 제안하고, 이를 기반으로 하는 T-few라는 방법도 제시하였습니다. (IA)^3는 self-attention의 value와 key에 learnable한 rescaling 파라미터를 추가하고, 중간 활성화 값을 조절하는 역할을 하는 learnable한 파라미터를 학습하는 방법입니다. 이렇게 함으로써 모델이 새로운 작업에 대해 더 효율적으로 학습하게 됩니다. 한편, T-few는 multitask로 prompted dataset으로 fine-tuned된 T0 모델에 (IA)^3 방법을 적용하고, 추가적으로 unlikelihood training과 length normalization에 대한 loss를 사용하여 학습하는 방법입니다. 이러한 방법으로 T-few는 T0 mixture dataset에서 GPT-3 157B few-shot learning보다 6% 더 높은 성능을 보여줍니다. 좋은 발표 감사합니다.


  • 2023-07-25 22:44

    이번 세미나에서는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning 논문을 소개해 주셨습니다. 논문에서는 소량의 데이터 상황에서 in-context 학습을 통해 few-shot 만으로 fine-tuning이 가능하게 하고자 합니다. 그를 위해 논문에서 제안하는 방법론 IA3는 attention 계산 과정의 key, value를 그대로 사용하는 것이 아니라, rescaling 해준 후 사용하며, position-wise feed-forward network에 추가적인 attention을 적용해 주어 적은 데이터 만으로 충분한 변화가 반영될 수 있도록 하였습니다. 논문에서 인상 깊었던 점은 mixed-task로 batch를 구성하여 학습하는 것이 가능했다는 점이었습니다. 특히 language modeling loss, unlikelihood loss for incorrect choice, length-normalized loss의 세가지 손실함수로 학습을 한 것을 보니, 정말 적은 정보를 최대한 활용하고자 하는 노력을 느낄 수 있었습니다. 효율이라는 최근 자연어처리 분야의 쟁점에 대해 다시 생각해 볼 수 있는 좋은 발표였습니다. 감사합니다.


  • 2023-07-25 23:36

    이번 세미나는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning 논문으로 진행되었습니다. 해당 논문은 T0 모델을 기반으로 기존 PEFT 방법론들이 가지는 하이퍼 파라미터 튜닝에 따라 결과 차이가 크다는 문제점을 보완할 수 있는 (IA)3 학습 방법론과 이를 적용한 T-few 모델을 제시했습니다. (IA)3는 기존 Self-Attention 구조에서 key, value 값과 ffnn에서 중간 활성화 값을 rescaling하는 학습 파라미터를 추가하고, 새롭게 추가된 파라미터로만 학습을 진행합니다. 따라서 이전의 방법론들은 soft prompt token 개수를 임의로 조정해주어야 했지만 (IA)3는 이러한 작업이 필요없다는 기여점을 가지며, GPT-3와 비교하여 1000배 적은 computational cost를 가지고도 RAFT 데이터셋에 대해 더 높은 성능을 보였습니다. 이외에도 논문에서 T-few 학습을 위해 제시한 추가적인 2가지 loss도(Length normalization, Unlikelihood learning loss) 설명해주셨는데, appendix의 ablation 장표를 보면 loss를 추가했을 때 성능 향상을 보인 모델과 하락을 보인 모델 사이에 어떠한 패턴이 있는건지 궁금하단 생각이 들었습니다. 발표자분의 첫 세미나임에도 발표 자료와 발표 모두 너무 잘 준비해주셔서 흥미롭게 들을 수 있었던 것 같습니다. 좋은 발표 감사합니다!


  • 2023-07-25 23:50

    이번 세미나는 효율적으로 LLM을 학습하기 위한 방법론에 집중하는 Parameter efficient-Fine tuning 분야의 논문인 “Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning”에 대해 다뤄 주셨습니다. 최근 공개 되는 많은 Language model은 많은 파라미터를 가지고 있기 때문에 fine tuning 또는 down stream task를 위해 학습하기 위해서는 많은 resource가 요구 됩니다. 따라서 효율적인 downstream task를 위한 방법들이 연구가 되었는데 그 중 하나가 Parameter-Efficient Fine-tuning입니다. 본 논문에서는 해당 분야에서 기존의 연구들이 많이 이루어졌지만 아직 데이터가 적은 상황 즉 Few-shot 세팅에서는 많이 이루어지지 않았다는 점을 motivation로 연구를 진행하였습니다. Few-shot ICL에 경쟁력 있는 PEFT가 가져야할 조건으로 학습 시 적은 파라미터 사용, New task에 대한 높은 성능 그리고 Mixed-task batches 가능을 제시하며 이에 기반한 IA^3 방법론을 제시합니다. IA^3는 self-attention의 value와 key에 rescaling역할을 하는 learnable parameter를 추가하고, intermediate activation 역할을 하는 learnable parameter를 학습합니다.

    최근 LLM의 트렌드를 지나 SLM과 같은 트렌드가 나오면서 무작정 큰 파라미터를 가진 모델이 아닌 효율적인 모델에 대해 관심이 집중되는 것 같고, 이러한 트렌드에 맞춰 Parameter-Efficient 학습은 계속해서 더 중요해질 것으로 생각됩니다. 좋은 발표 감사합니다.


  • 2023-07-25 23:59

    이번 세미나는 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning를 주제로 진행되었습니다. 해당 세미나와 논문은 소량의 데이터로 in-context learning보다 좋은 성능을 도출하는 parameter-efficient fine-tuning을 다루고 있습니다. 본 논문에서 제시하고 있는 parameter-efficient fine-tuning의 조건으로는 학습 시 적은 파라미터를 사용해서 new task에 대해 높은 성능을 보여야하고, mixed-task batches를 사용하여 모델의 교체를 최소화하는 것을 언급하고 있습니다. 본 논문에서 제안하고 있는 IA^3는 attention 과정에서 key, value에 대해 rescaling vectors를 사용했다는 점과 position-wise feed-forward networks를 통해 효율적인 방법을 제안하였습니다. IA^3를 T0 모델에 적용하고 unlikelihodd traning과 length normalization을 사용하는 T-few를 제안하였습니다. attention 과정에서 parameter를 추가함으로써 fine tuning 효과를 보인 것이 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2023-07-26 03:08

    이번 세미나에서는 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning" 논문을 다루었습니다. 이 논문은 기존의 In-Context Learning 방법보다 효율적이고 성능이 우수한 Few-Shot Parameter-Efficient Fine-Tuning 방법에 대해 소개하고 있습니다. ICL은 적은 수의 훈련 예제를 입력으로 사용하여 이전에 보지 못한 작업을 수행하는 데 사용되는 방법으로 장점을 가지나 그러나 ICL은 매번 예측할 때마다 모든 training example을 처리하기 때문에 상당한 계산, 메모리 및 저장 비용을 발생시킵니다.

    이에 반해 PEFT는 작은 파라미터 세트를 학습하여 모델이 새로운 작업을 수행하도록 하는 대체 패러다임을 제공합니다. 본 논문에서는 adapter 모듈, prompt tuning, sparse update 등의 방법론을 사용하여 PEFT를 구현하였습니다. 논문에서는 (IA)^3라는 새로운 PEFT 방법론을 소개하였는데, 이는 활성화를 학습된 벡터로 조정하여 적은 양의 파라미터만 도입하면서도 강력한 성능을 달성하는 방법입니다.또한, T0 모델을 기반으로 한 T-Few라는 간단한 레시피를 제안하고 있습니다. 이는 특정 작업에 대해 튜닝이나 수정 없이 적용할 수 있으며, T-Few는 완전히 새로운 작업에 대해 RAFT 벤치마크에서 super-human performance를 보였습니다.
    PEFT와 IA^3에 대해 알게된 좋은 세미나였습니다. 감사합니다.


  • 2023-07-26 22:04

    이번 세미나에서는 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning"에 대해 소개해주셨습니다. 해당 논문의 주요한 주제는 바로 Parameter-Efficient Fine-tuning(PEFT)으로, full fine-tuning보다 훨씬 적은 training cost와 적은 데이터를 사용함에도 in-context learning보다 훨씬 좋은 성능을 보일 수 있다는 장점을 가집니다. 이에 대해 T-few라는 GPT-3의 few-shot learning의 성능을 능가하는 방법론을 소개하고 있습니다. T-few의 핵심은 IA^3입니다. 이는 Infused Adapter by Inhibiting and Amplifying Inner Activities의 약자로, attention mechanism의 key와 value 벡터들을 rescaling하고 position-wise feed-forward network내의 activation을 수행하게 됩니다. 또한 base model로는 T0를 활용하며, unlikelihood learning과 length normalization 2가지 loss를 활용합니다. 위와 같은 4가지 레시피를 통해 T-few를 구성할 수 있게 됩니다. 다양한 fine-tuning의 방법 중, parameter를 효과적으로 줄여 사용하면서도 우수한 성능을 보일 수 있는 Parameter-Efficient Fine-Tuning에 대해 알아볼 수 있었던 시간이었습니다. 첫 세미나임에도 차근차근 잘 전달해주셔서 이해에 도움이 되었습니다. 좋은 발표 준비해주셔서 감사드리며, 수고하셨습니다.


  • 2023-07-28 17:44

    금일 세미나는 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning"으로 Parameter-Efficient Fine-Tuing 방법론을 Few-Shot 환경에서 적용하여 In-Context Learning 방법론보다 효율적인 모델 활용이 가능하다는 내용을 중점적이었던 논문이었습니다. ICL은 다양한 태스크에서 높은 일반화 성능을 보여주지만, Demonstration을 활용하면서 모델의 Inference Cost가 매우 높다는 단점이 존재합니다. 이를 개선하고자 해당 논문에서는 Key와 Value Matrix에 직접적인 Scaling을 적용하는 IA^3 PEFT 방법론을 제안하고 있습니다. 또한, Unlikelihood Training과 Length Normalization을 통해 다양한 Downstream Task에 대한 성능을 높이는 Fine-Tuning 방법론을 결합하고 있습니다. 기존의 다양한 연구들에서 매우 많은 PEFT 방법론과 Unlearning 방법론이 있었지만, 본 논문처럼 그 목적을 ICL을 대체하고자 하는 접근법은 새로웠던 것 같습니다. 좋은 발표 감사드립니다.


  • 2023-08-02 18:47

    이번 세미나에서는 "Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning" 을 주제로 진행되었습니다. 본 논문은 소량의 데이터로 in-context learning보다 좋은 성능을 도출하는 parameter-efficient fine-tuning을 다룹니다. Parameter-Efficient Fine-tuning(PEFT) 는 언어모델에서 효과적인 fine-tuning 을 위해 학습 파라메터를 줄이는 방법이며, Fine-tuning 과 비슷한 성능을 달성합니다. 관련된 해당 연구들이 연구실에서 많이 소개되어서 어떠한 흐름인지는 파악하기 쉬웠고, 발표의 백그라운드를 잘 설명해주었습니다. 일반적으로 하이퍼 파라메터 튜닝에따라 결과차이가 크지만, 해당방법에서는 이러한 튜닝과정을 최소화하는 실용적인 방법을 제안하였습니다. 좋은 발표 감사합니다.


전체 502
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10411
관리자 2020.03.12 0 10411
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9031
관리자 2020.03.12 0 9031
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10123
관리자 2020.03.12 0 10123
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (3)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 53
Doyoon Kim 2025.05.01 0 53
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (13)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 139
Sunghun Lim 2025.04.24 0 139
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (15)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 126
Suyeon Shin 2025.04.21 0 126
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 170
Woongchan Nam 2025.04.16 0 170
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 314
Kiyoon Jeong 2025.04.16 0 314
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 348
Hyeongwon Kang 2025.04.09 0 348
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 337
Jaehyuk Heo 2025.04.02 0 337
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 334
Jaehee Kim 2025.04.02 0 334
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 283
Jungho Lee 2025.04.02 0 283
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 259
Hankyeol Kim 2025.03.25 0 259

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호