[Paper Review] Prompt-Based Learning

작성자
Myeongsup Kim
작성일
2021-10-20 03:44
조회
13100
1. Topic
  • Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
  • It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
  • GPT Understands, Too
2. Overview

GPT-3가 In-Context Learning을 활용하여 Few-Shot Setting으로 다양한 Task에서 높은 성능을 보이고, 기존 Language Model이 처리할 수 없는 다양한 Task를 수행한 이후로, 대용량 Corpus를 이용하여 수행된 Pre-trained LM은 그 자체로 다양한 Task를 수행할 수 있는 능력을 갖고 있음이 확인되었습니다.

이번 세미나에서는 In-Context Learning을 활용하여 학습된 Pre-trained LM을 보다 효과적으로 활용하고자 시도한 Prompt-Based Learning에 대해 소개합니다.

첫 번째 기법인 Pattern-Exploiting Training은 Pre-training Task와 동일한 형태로 Task와 Label을 변환하는 방법을 사용하여 Pre-trained LM이 수행할 수 있는 형태로 문제를 재정의하여 223M개의 Parameter만을 이용하여 SuperGLUE Benchmark에서 Few-Shot Setting으로 GPT-3를 능가하는 성능을 기록하였습니다.

두 번째 기법인 P-Tuning은 이산 공간 내에서 Prompt Search를 수행하는 기존 방법들의 한계를 지적하고, 연속적인 공간 내에서 Prompt Tuning을 수행하여 Supervised Setting으로 SuperGLUE Benchmark에서 Fine-tuning을 상회하는 성능을 기록하였습니다. 또한, NLU Task에서는 Autoregressive Model인 GPT가 BERT를 능가할 수 없다는 통념을 깨고 P-Tuning이 적용된 GPT가 BERT의 성능을 능가할 수 있음을 보였습니다. 마지막으로 Few-Shot Setting으로 SuperGLUE Benchmark에서 State-of-the-art를 갱신하였습니다.

3. 발표자료 및 발표영상
  • 발표 자료 (첨부파일)
  • 발표 영상 (Link)
4. 참고문헌
  • (Paper) Schick and Schütze, Exploiting Cloze Questions for Few Shot Text Classification and Neural Language Inference, EACL, 2021 (Link)
  • (Paper) Schick and Schütze, It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners, NAACL, 2021, Outstanding Paper (Link)
  • (Paper) Liu et al., GPT Understands, Too, arXiv, 2021 (Link)
전체 23

  • 2022-02-11 21:21

    이번 세미나는 prompt-based learning에 대한 내용으로 진행되었습니다. 언어 모델의 스케일이 커지면서 계산량, 데이터셋 크기 등의 문제로 fine-tuning에 대한 어려움 또한 커졌습니다. 오늘 소개해주신 prompt-based learning은 pre-training만으로 각 task를 해결하려는 방법론입니다. 첫번째 논문에서는 pre-training의 task과 같은 형태로 해결하고자 하는 task및 dataset을 변경하여 pre-trained model을 사용하여 downstream task를 해결하였습니다. 두번째 논문의 경우 다수의 unlabeled data가 필요한 첫번째 방법론과 달리 bi-LSTM으로 구성된 prompt encoder학습하여 언어 모델 자체의 parameter update는 없이 task를 해결하였습니다. pre-trained model을 fine-tuning하던 기존의 방법을 대체할 수 있는 대표적인 방법으로서 연구되는 것 같습니다. 좋은 발표 감사합니다.


  • 2021-10-20 00:04

    최근 finetuning을 대체할 수 있다며 많이 연구되고 있는 prompt learning에 대해 소개해주셨습니다. 언어 모델의 scaling law가 실험적으로 입증된 이후 본격적으로 거대 언어 모델이 등장하였는데, 이에 따라 finetuning만을 수행하는 것도 부담이 커지게 됩니다. 그러나 GPT-3에서 제안한 것처럼 task에 대한 명세를 prompt로 입력해주어 few-shot으로 문제를 해결하는 것도 좋은 성능을 보였습니다. 이러한 현상의 핵심이 되는 in-context learning은 대량의 문서 내에 우리가 하고자 하는 task들이 다양한 형태로 녹아들어 있다는 컨셉을 갖고 있습니다. 소개해주신 논문에서는 크지 않은 언어모델 역시 finetuning 없이 prompt를 활용하여 다양한 task를 수행할 수 있다고 주장합니다. 이를 위해 입력을 language model이 해결할 수 있는 형태(e.g., BERT에서 풀고자 하는 시퀀스를 마스킹이 포함된 형태로 변경)로 바꾸어주는 것이 prompt-based learning의 핵심이 됩니다. 먼저 vocab 내의 적당한 토큰으로 기존 label을 간단한 형태로 바꾸어주는 verbalizer가 있습니다. 그리고 pattern은 기존의 입력 phrase를 language model이 풀 수 있는 템플릿으로 바꾸어줍니다. 따라서 pattern-verbalizer pair를 사용하면 언어모델의 입력으로 사용될 prompt를 생성할 수 있습니다. 추가적으로 다양한 형태의 prompt를 사용하여 출력된 결과를 앙상블하여 성능을 높이는 방법도 있습니다. 후속 연구는 기존 single token masking을 multi token masking을 확장하여 성능을 향상시켰습니다. 이후에는 prompt 자체를 generate하는 P-tuning까지 소개해주셔서 큰 흐름에 대해 재미있게 들었습니다. 언어 모델을 가장 잘 활용하는 방법 중 하나가 prompt learning이 아닐까 싶고, 관련 연구거리도 굉장히 많은 것 같습니다. 발표 잘 들었습니다.


  • 2021-10-20 02:10

    굉장히 흥미로운 주제의 세미나였습니다. 특히 large LM이 LM 연구의 주를 이루는 시기에 관심 가져볼만한 분야라 생각하며, 최근 굉장히 자주 등장하는 키워드라 관심이 있었는데 세미나에서 잘 정리해주셔서 정말 큰 도움이 되었습니다. BERT 이후로 좋은 모델이 쏟아져나왔지만, 단순히 모델을 scaling up 하여 downstream task의 성능을 높이는 연구는 어느정도 정체되었다고 생각합니다.
    특히 BERT의 pretraining 방법을 그대로 사용하여 downstream task를 풀 수 있도록 하는 컨셉이 매우 흥미로웠는데, 제가 최근 작성한 논문과도 닮아있어서 추후 연구에 사용 할 수 있을 것 같습니다. task별로 verbalizer 를 manual하게 설정하는 과정을 거쳐야하며, 조금 더 개선해야하는 부분이 있지만 language model의 장점을 최대한 살릴 수 있다는 장점이 있습니다. 소개해주신 방법중에서도 combining PVP가 재미있었는데, 해당 부분을 제대로 공부해보고싶다는 생각이 들었습니다. 발표 감사합니다


  • 2021-10-20 17:00

    금일 세미나 주제는 finetuning 없이 pretraining 만으로 downstream task를 수행할 수 있는 기법인 prompt-based learning 입니다. 첫번째 논문에서는 PET를 제안하는데, 여기서 제안한 pattern verbalizer pair(PVP)는 QA나 Sentiment classification task를 bert가 MLM으로 풀 수 있도록 문장 변형하는 것입니다. 이 때 label을 pattern안에 넣어줄 때 사용하는 verbalizer는 vocab 내의 단어로 바꿔줍니다. 또한, combining pvp를 할 때, multiple tokens도 활용이 가능합니다. 본 방법론으로의 실험 결과, gpt-3나 Roberta 대비 훨씬 더 좋은 성능을 보였습니다. 다만 본 방법론은 수천개의 unlabeled data가 필요한 점, pattern을 손수 조정해줘야하는 점이 한계점입니다. 이러한 한계점을 해결한 것이 두번째 논문인데, 여기서는 P-tuning을 이용했을 때 GPT 역시 BERT만큼 nlu task를 잘 수행할 수 있다고 주장합니다. 이 논문에서는 이산 공간 내에서 Prompt-based Learning을 수행했을 때의 prompt에 따른 성능이 불안정한 것을 개선하고자 연속적인 공간 내에서 Prompt-based Learning을 수행하는 P-tuning을 제안합니다. 실험 결과, gpt finetuning 대비 P-tuning이 우수한 성능을 보였고, bert finetuning 대비도 더 우수한 성능을 보였습니다. Prompt-based learning에 대해 처음 접하게 되었는데 예시와 함께 쉽게 설명해주셔서 이해가 잘 되었고, 주제가 매우 흥미로워서 재미있게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2021-10-20 17:18

    기존 방법론은 token sequence들을 autoregressive한 형태의 language modeling을 수행하는 것이 일반적입니다. 이번 세미나에서는 pretraining 단계에서 좀 더 concept-oriented approaches를 적용하게 되면 finetuning이 불필요하다는 이슈를 제기하고 있습니다. 예를들어, entailment 데이터는 pair로 이루어져 있으며, 진짜/가짜를 구분하는 task입니다. 따라서 (sentence-label-sentence)의 긴 text 데이터를 만들수 있으며, masking되는 부분을 label에 취해 (sentence-[mask]-sentence)의 형태로 구성한 데이터를 사용하여 few-shot learning의 성능을 향상 시켰습니다. 제안 방법론은 fine-tuning이 불필요하다고 했지만 대용량 데이터에 대해 fine-tuning과정을 한 step으로 수행하는 것처럼 느껴졌습니다. 이 방법론이 좀 더 설득력이 있다면 entailment task의 성능이 아닌 다른 downsteam task의 generalization 성능을 확인해 볼 필요가 있을 것 같습니다. 좋은 발표감사합니다.


  • 2021-10-21 11:40

    이번 세미나는 finetuning을 대체하는 prompt-based learning에 대한 세미나입니다. 소개해주신 방법론은 크게 두가지로, 첫번째로 Pattern-Exploiting Training은 입력값을 cloze-style phrase로 변환하여 LM로 하여금 주어진 task에 대해 이해시키는 semi-supervised training입니다. 또한 이는 데이터가 많이 필요하지 않는 few-shot text classification에서도 높은 성능을 보였습니다. 두번째 방법론은 p-tuning입니다. 이는 이상 공간이 아닌 연속적인 공간에서 prompt-based learning을 수행하는 방법론입니다. NLU task에서는 GPT가 BERT를 능가하고 few-shot learning에서도 높은 성능을 보이며, 이번 세미나에서 소개된 prompt-based learning이 앞으로의 fine-tuning을 대체하려면 어떤 점들이 추가적으로 요구될 지(본 논문들에서 숨기고 있는 단점들)에 대해 고찰해볼 필요가 있을 것입니다. 흥미로운 발표 감사합니다.


  • 2021-10-21 14:16

    금일 세미나는 자연어 처리 분야 중 하나인 Prompt-based learning이라는 주제가 소개되었습니다. 이는 전형적인 Language Model의 Fine tuning 방법과는 다르게 사전 학습 과제(Pre-training Task)를 직접적으로 활요할 수 있도록 의도는 같지만 변형을 주는 방법을 의미합니다. 이와 관련하여 두 가지의 방법론을 소개되었는데 첫 번째는 Pattern exploiting traing입니다. 이는 기존의 QA, 감성분석등의 과제를 BERT에서 진행했던 것 처럼 마스킹된 단어를 예측하도록 변형을 준 과제를 의미하고 이때 Pattern-Verbalizer Pair가 형성됩니다. verablizer는 단어사전 내의 몇 가지 토큰으로 label을 변형해주게 됩니다. 이 방법론은 적은 양의 보기 혹은 예시와 함께 실질적으로 수행하고자 하는 과제를 해결하는 Few-shot learning에서 높은 성능을 보였습니다. 다만 수천개의 unlabeled 데이터가 필요하고 패턴을 하나씩 고쳐야한다는 점이 한계점으로 여겨집니다.두 번째는 P-Tuning 이라는 것으로 이산적인 Prompt가 아닌 연속적 공간에서 Prompt-based learning을 수행하는 것이 핵심인 방법론입니다. 실험 결과에서도 알 수 있듯이 GPT 및 BERT Finetuning 보다 높은 성능을 보였습니다. Down stream task를 수행하기 위한 사전학습된 LM의 활용 혹은 더 나은 LM을 개발하는 것에만 관점을 가졌었는데 새로운 관점과 흐름에 대해 배울 수 있어서 매우 신기하고 흥미롭게 발표를 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2021-10-21 22:15

    제가 대학원에 온지 한달 반 동안 보았던 가장 질문을 많이 받은 논문 발표가 아니었나 싶습니다. 그만큼 모두의 흥미를 끌었던 논문이라 생각됩니다. 이번 세미나는 자연어 처리 분야 중 하나인 Prompt-Based Learning으로 Finetuning 없이 Pretraining 만으로 Task를 수행할 수 있음을 보여주고 있습니다. 3가지 논문을 통해 2가지 기법을 설명해주셨는데, 첫번째 기법은 Modified PET(Pattern-Exploiting Training)입니다. Pre-training Task와 동일한 형태로 Task와 Label을 변환하는 방법을 사용하여 Pre-trained LM이 수행할 수 있는 형태로 문제를 재정의하는 기법으로 Few-shot Setting으로 GPT-3를 능가하는 성능을 보여줬습니다.
    두번째 기법은 P-Tuning으로 이산 공간 내에서 Prompt Search를 수행하는 기존 방법들의 한계를 지적하고, 연속적인 공간 내에서 Prompt Tuning을 수행합니다. 이 기법을 통해 Finetuning을 능가할 수 있음을 보여주고 있습니다.
    자연어 처리에 대해 잘 모르다보니 설명을 이해하기 쉽게 코드 하나씩 뜯어서 설명해주시고, 그림과 예시로 직관적으로 보여주셨는데, 이를 정리하기가 쉽지 않았던 것 같습니다. 내용을 반복해서 되돌아보며 다음 자연어 처리 관련 논문 세미나에서는 조금 더 잘 이해할 수 있도록 하겠습니다. 좋은 발표 감사드립니다.


  • 2021-10-23 21:31

    이번 세미나에서는 Prompt-Based Learning을 주제로 3개의 논문을 다루면서 2가지 기법에 대해 소개되었습니다. 첫 번째는 Pattern-Exploiting Training 방식으로 큰 사이즈의 언어모델을 사전학습할 때 사용했던 방식처럼 학습에 사용할 데이터의 형태를 바꿔주는 것입니다. 이미 잘 학습된 모델을 최대한 활용하기 위한 아이디어라 생각되고, 이를 통해 Few-shot setting에서 GPT-3의 성능을 뛰어넘을 수 있었다고 합니다. 두 번째는 연속적인 공간에서 Prompt-Based Learning 을 수행하는 P-tuning 입니다. P-tuning을 통해 논문에선 NLU task에서 GPT가 Bert의 성능을 뛰어넘을 수 있음을 보였고, SuperGLUE Benchmark 에서 P-tuning이 fine tuning의 성능을 뛰어넘는 등 의미있는 결과를 보여줍니다. 이러한 결과는 앞으로의 후속 연구에 대한 방향성을 제시하고 있지 않나 생각하고, Large scale model의 활용도 측면에서도 실용적인 연구성과라는 생각이 듭니다. 좋은 발표 감사합니다.


  • 2021-10-25 00:05

    금일 세미나는 prompt based learning 연구를 주제로 진행되었습니다. 최근 자연어 처리의 트렌드라 하면 ‘스케일’일 것입니다. 최근 하이퍼스케일 언어 모델을 내놓는 흐름이 이를 반영할 것 입니다. 이 하이퍼스케일 언어모델은 현실적으로 파인튜닝 등 접근이 어려운 면이 있는 데, 이에 대응하고 성능을 개선할 수 있는 접근법으로 발표자분꼐서 소개해준 개념인 ‘prompt learning’이 등장합니다. 지난 세미나에서도 말씀해주셨던 ‘scaling laws for LMs’의 개념도 다시 한 번 소개해주셔서 좋았습니다. GPT-3의 In-context learning 방법론을 기반으로 Large scale LM이 다양한 task를 수행할 수 있음은 발표자 분께서 설명해주셨듯 확인되었습니다. 역시나 중요한 것은 언어 모델에 넣는 input과 label의 유형이겠죠. Prompt based learning은 이러한 점에서 시사점을 얻습니다. Pattern verbalizer pair(PVP)를 생성해 이를 언어모델에 넣어, 다양한 문제를 풀고, 성능 향상을 위한 반복 학습을 진행할 수 있도록 합니다. 일종의 Data augmentation과 이를 통한 추가적인 학습을 진행시키는 것으로, 이 과정을 iPET이라 지칭합니다. 결국에는 Scaling laws에 기반한 스케일 기반의 접근법이라는 점은 동일할 것 입니다. 하지만, 기존의 접근법에서 시사점을 얻고, 한계를 우회할 수 있는 방법을 제안했다는 점에서 참 인상적이었습니다. 어떻게든 방법은 있다라는 생각이 들기도 했습니다. 이어서 추가로 설명해주신, P-tuning 방법도 인상적이었습니다. 파인튜닝 없이도 더 좋은 성능을 낼 수 있다는 점. 특히나 BERT보다도 높은 성능을 낸 점이 인상깊었습니다. 자연어처리 모델은 결국 하이퍼 스케일 모델과 큰 자원을 기반으로 파인튜닝으로 굳어지는 것인가.. 라는 생각을 했는 데, 이렇게 또 새로운 접근법이 나오는 걸 보니 참 변화가 빠른 것 같습니다. 좋은 개념 친절한 설명으로 잘 이해할 수 있었습니다. 항상 그렇듯, 어려운 내용과 최신의 좋은 정보들을 잘 소개해주셔서 감사드립니다. 좋은 발표 잘들었습니다. 감사합니다.


  • 2021-10-25 01:03

    이번 세미나는 'Prompt-Based Learning'을 주제로 진행 되었습니다. 본 발표에서는 크게 Pattern-Exploiting Traing(PET), P-Tuning을 다뤘습니다. 먼저 본 세미나의 가장 큰 주제는 finetuning 없이 pretraining 만으로 downstream task을 수행할 수 있는가입니다. 첫번째 논문에서는 pattern verbalizer pair(PVP)를 사용하여 Masked Language model로 풀 수 있게 하였습니다. 하지만 수천개의 unlabeled data가 필요하고, pattern을 직접 수정해줘야한다는 단점이 있었습니다. 두번째 논문에서는 이 문제점을 해결하고자 하였습니다. 연속 공간에서 더 좋은 Prompt를 자동으로 탐색하여 pre-trained model의 자연어 이해 능력을 향상시키도록 제안된 P-tuning을 사용하였습니다. 항상 NLP LM들을 보면서 fine tuning 없이 한 모델이 모든 task를 처리할 수 없을까? AI가 인간을 따라하려면은 여러 모델을 학습하는 것이 아닌 한 모델이 모든 task를 처리할 수 있어야 하지 않을까라는 생각을 하였습니다. 그러한 궁금증을 어느 정도 해소해주는 논문들이 었던 것 같습니다. 또한 하고자 하는 말을 여러 형태로 바꿔서 표현할 수 있다는 실제 언어가 갖는 큰 특징을 잘 이용한 것 같습니다. 굉장히 신기하고 흥미로운 발표였습니다. 좋은 발표 감사합니다.


  • 2021-10-25 14:07

    최근 언어 모델들의 사이즈가 지속적으로 커지면서 일반 연구자들은 모델을 task specific하게 finetuning 하는 것도 매우 어려워진 상황입니다. 금일 세미나에서 소개해주신 연구들에서는 이러한 문제들을 해소하고자 prompt-based learning을 제안합니다. 제안하는 방법을 사용하면 fine tuning을 하지 않고, pretrained model만을 사용하여 down stream task를 풀 수 있음을 보였습니다. 이는 이미 대용량의 pretrained LM이 이전의 상식들보다 많은 정보를 담고 있음을 시사합니다. 현재 제안된 방식을 사용하기에는 verbalizer를 구성하는데 제한되는 부분이 있지만 지속적으로 발전이 필요한 분야라는 생각이 들었습니다.


  • 2021-10-25 18:22

    금일 세미나는 "Prompt-Based Learning"라는 주제로 진행되었습니다. 본 발표에서는 In-Context Learning을 활용하여 Pre-trained Language Model을 효과적으로 활용하는 Prompt-Based Learning 관련 방법론들이 소개되었습니다. 개인적으로는 이번 세미나를 통해 처음으로 Prompt-Based Learning을 접하게 되어 흥미로웠고 최근 제안되고 있는 Language Model의 사이즈가 finetuning을 하기에도 벅찰 정도로 커지고 있기 때문에 해당 연구가 현실에서 매우 중요한 문제라고 생각했습니다. In-Context Learning을 위해 input을 language model이 해결할 수 있는 형태로 변경해주는 부분이 인상 깊었고, 이 부분에서 task별로 verbalizer를 manual하게 설정하는 과정을 거쳐야한다는 점이 아쉬웠습니다. 하지만 본 연구들이 현실에서 매우 중요한 부분은 해결하고자 한다는 것만으로 충분히 매력적인 연구라고 생각했습니다. 좋은 발표 감사합니다.


  • 2021-10-25 21:39

    이번 세미나에서는 prompt-based learning에 대해서 소개해주셨습니다. Prompt based learning은 사전학습된 언어 모델이 커지는 것과 약간은 다른 맥락에서, 학습 과정 자체에 prompt를 추가해 학습을 수행하고자 하는 방법론입니다. 관련하여 첫번째로 말씀하신 논문은 PET(Pattern Exploiting Training)이었는데, QA 같은 task를 Pattern Verbalizer Pair를 이용해 마스킹 기반으로 사전학습 과정에 포함시키기 위한 방법론이며, GPT-3 대비 Few-shot Learning에서 더욱 개선된 성능을 보입니다. 다만 prompt-based learning의 약점 중 하나가 GPT-3에 실험되었던 것처럼 prompt에 따른 성능의 안정성인데, 이를 해결하고자 P-Tuning을 제안한 것이 두번째로 소개해주신 논문입니다. 와 같은 논문도 그렇고, 최근 prompt based learning의 한계점을 극복하면서 기존 pretraining -> fine tuning의 패러다임을 바꿀 수 있는 연구가 활발하게 수행되는 것 같습니다. 좋은 발표 감사합니다.


  • 2021-10-26 04:50

    사전 학습된 언어모델(Pre-trained Language Model)은 그 자체로 여러 downstream task를 수행할 수 있는 능력을 갖추고 있습니다. 이번 세미나에서는 finetuning 없이 사전학습 만으로 downstream task를 수행할 수 있는 prompt-based learning의 두가지 방법론을 소개해주셨습니다. 첫번째로 Pattern Exploiting Training은 마스킹된 Pattern-Verbalizer Pair를 생성하여 감성분석이나 QA를 수행하도록 하고 multiple token을 활용한 combining pvp를 진행합니다. 두번째 방법론인 P-tuning의 경우 첫번째 방법론의 한계점인 대량의 unlabeled 데이터와 패턴 조정의 수작업을 필요로 한다는 점을 해결하고자 연속적인 공간에서 prompt-based learning을 수행합니다. NLU task에서 GPT가 BERT의 성능을 뛰어넘는 결과를 보여주기도 하였습니다.
    Transformer, BERT, GPT의 등장 이후 언어 모델은 엄청난 양의 파라미터를 발생시키고 몸집을 점점 키워 hyper scale에 도달하였고 Large Scale Model 관련 연구는 여전히 활발하게 진행중입니다. 개인적으로는 이러한 모델의 거대화가 언제까지 유효할지, 과연 지속 가능한 발전인지에 대해 다소 회의적인 시선을 가지고 있습니다. 그러한 측면에서, 이번 세미나에서 소개해주신 논문 중 비교적 작은 언어모델도 few-shot learning이 가능하다는 It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 논문을 흥미롭게 보았습니다. 유익한 발표 진행해주셔서 감사합니다.


  • 2021-10-26 17:19

    금일 세미나는 Prompt-Based Learning에 대하여 소개해주셨습니다. "The Scaling Laws for LMs"이라는 논문은 model size, dataset size, computation 을 늘리면 늘릴 수록 성능이 증가하는 것을 실험으로 입증합니다. 유독 LM은 오버피팅이 일어나지 않고, 이 3가지가 혼합적으로 작용하여 좋은 성능을 갖게해준다는 것을 보여줍니다. 해당 논문을 근간으로 모델의 사이즈를 키우고자 하는 연구들이 많이 수행이 되었습니다. 대표적인 예로, GPT-3가 있는데, 이는 무수히 많은 파라미터를 가지고 있어 fine-tuning이 현실적으로 불가능하고, 해줄 필요조차 없습니다. GPT-3(최초는 GPT-2)는 In-Context Learning을 활용하여 Few-Shot Setting으로 다양한 Task에서 높은 성능을 보이고, fine-tuning없이 다양한 Task를 수행할 수 있는 능력을 갖고 있음이 확인되었습니다. 오늘 세미나의 키워드인 Prompt-Based Learning은 In-Context Learning을 활용하여 학습된 Pre-trained LM을 보다 효과적으로 활용하고자 한 방법입니다. 이를 활용한 2가지 컨셉들을 소개해주셨는데요. 이는 아래와 같습니다.

    [1] Pattern-Exploiting Training (PET)
    해당 기법은 Pre-training Task와 동일한 형태로 Task와 Label을 변환하는 방법(a.k.a. Pattern Verbalizer Pair)을 사용하여 Pre-trained LM이 수행할 수 있는 형태로 문제를 재정의하여 223M개의 Parameter만을 이용하여 GPT-3를 능가하는 성능을 기록하였습니다. 이때 여러 Pattern-Verbalizer Pair를 만들어주고 MLM을 통과시킨 뒤(i-PET : finetuning과 inference를 반복하는 것) Ensemble과 Distillation을 수행하면 모델 성능이 더 좋아졌다고 합니다.

    [2] Prompt Tuing (P-Tuning)
    PET는 수천개의 unlabeled data가 필요한 점, pattern을 손수 조정해줘야하는 점, 그리고 Prompt 자체는 이산적이지만, 우리가 학습하는 모델은 연속적이기 때문에 도달하는 정답(?)이 sub-optimal일 수 있다는 한계가 존재합니다. 이러한 한계들을 극복하기 위해 제안된 기법인 P-Tuning은 연속적인 공간 내에서 Prompt Tuning을 수행하여 모델은 건들이지 않고 Prompt Encoder(Bi-LSTM)을 학습하여 고성능을 기록하였습니다.

    흥미로운 발표 들려주셔서 감사합니다!


  • 2021-10-26 17:21

    이번 세미나에서는 prompt-based learning를 주제로 여러 논문을 소개해 주셨습니다. Gpt-3는 in-context learning을 이용하여 few-shot task에서 높은 성능을 보였지만, 모델의 크기가 너무 크기 때문에 fine-tuning을 수행하는 등의 활용에 있어서 어려움이 존재합니다. In-context learning은 language model의 pre-training 과정에서 목적한 task 뿐 아니라 text에 내포된 다양한 sub-task를 함께 학습하여 labeled data 없이 다양한 task를 수행할 수 있는 학습 방법을 의미합니다. Prompt-based learning은 in-context learning을 기반으로 language model이 적절하게 task를 수행할 수 있는 형태로 문제를 바꾸는 방법을 제안한 방법입니다. 첫 번째로 소개된 방법인 pattern exploiting training에서는 다양한 downstream task에 맞는 pattern과 verbalizer를 이용하여 문제를 변경, input text를 특정한 templet에 맞는 pattern으로 변경하고, verbalizer를 이용하여 label을 vocab에 존재하는 token으로 변경하는 방식을 이용해 SuperGLUE Few-shot Setting에서 223M개의 parameter를 이용해 GPT-3를 능가하는 성능을 기록하였습니다. 두 번째로 소개된 방법인 p-tuning에서는 pattern exploiting training의 단점인 prompt의 token 변화에 따라 성능의 변폭이 심한 점과, 다수의 unlabeled data가 필요했던 점, task에 맞는 prompt를 사람이 설정해 줘야 한다는 점 등을 지적하였습니다. Bi-LSTM 구조를 이용한 prompt encoder를 설계하고 pseudo prompt를 입력으로 받아 language model의 embedding을 출력하는 구조를 사용, language model의 loss를 이용하여 prompt encoder를 tuning하는 방식으로 language model parameter update없이 few-shot setting에서 SOTA를 기록하였습니다. 좋은 발표 감사합니다.


  • 2021-10-26 17:43

    금일 세미나는 “Prompt-Based Learning”이라는 주제에 대해 소개하였습니다. 이번 세미나 주제가 새로웠던 이유는 자연어 처리에서 지속적으로 커지고 있는 사전 학습 모델에 대해 활용성을 높일 수 있는 방법이기 때문이라고 생각했습니다. 방대한 크기의 사전학습 모델을 활용하는 방법은 일반적으로 각자에 맞는 task에 fine-tuning을 하는 방식으로 사용이 되는데 이는 그와 달리 사전학습시 적용한 task의 형태에 맞춰 fine-tuning 없이 다양한 downstream task에서 높은 성능을 가질 수 있음을 보였습니다. 또한 P-tuning의 경우 SuperGLUE 벤치마크 데이터에서 fine-tuning과 유사한 또는 더 높은 성능을 기록한 점이 인상이 깊었습니다. 사전학습에 대한 좋은 활용 방법을 제안하였다고 생각되었습니다. 오늘도 좋은 발표 감사합니다.


  • 2021-10-26 22:31

    현재 언어모델은 확실히 다양한 Downstream Task에서 SOTA를 달성하고 있지만, 좋은 성능과 비례하는 필요 데이터셋 또는 파라미터 수로 인하여 일반인들이 실제로 사용하기에는 어려움이 있습니다. 이를 위하여 마치 Distillation과 같이 작은 모델로 큰 모델의 성능을 얻어내고자 본 세미나의 주제인 Prompted based Learning이 제안되었습니다. 관련된 두 논문을 설명해주었으며, 첫 번째 논문에서는 PET 알고리즘을 사용합니다. 이는 텍스트 입력 값을 Cloze 스타일로 변형하며 이 때 해당하는 Cloze Pattern이 여러가지가 존재하기에 같은 데이터 양에 대하여 다양한 Pattern의 Cloze Task 학습을 적용하는 것입니다. 이는 Unlabeled data가 무수히 많이 필요하며, discrete한 prompt를 사용했기에 성능이 크게 향상하지 않을 수 있습니다. 이를 극복하기 위한 P-Tuning은 Continuous space 속에서 더 좋은 Prompts를 지속적으로 탐색해나가는 훈련 방식입니다. 두 제안 방식 모두 큰 언어 모델을 더 적은 비용과 데이터 셋으로 훈련하기 위한 방식으로, 언어 모델의 Knowledge Distillation의 느낌이 강하며 이에 따라 KD의 개념이 논문들에서 언급되는 것이 보였습니다. 새로운 방식을 알게 되어 좋았습니다. 감사합니다.


  • 2021-10-26 23:58

    이번 세미나는 Prompt-Based Learning을 주제로 발표해주셨습니다. 자연어처리 분야에서 SOTA를 달성하는 모델을 살펴보면 대부분 굉장히 모델의 크기가 크고, 다량의 모델로 학습한다는 것을 알 수 있습니다. 따라서 오늘 발표자분께서 발표해주신 주제처럼 효율성에 대한 고민을 해결하기 위한 연구의 필요성이 증대되고 있는 것 같습니다. 오늘 설명해주신 P-tunning에서는 Bi-LSTM 구조를 이용한 prompt encoder를 통해 task에 맞는 좋은 임베딩을 학습함으로써 본 모델의 파라미터를 업데이트 하지 않는 효율적인 방식이었습니다. 기존 방법론에서의 문제를 정리하고 이를 해결하기 위해 prompt encoder가 제안되었는데 이 과정이 매우 논리적이라고 생각했습니다. 또한 본 모델을 업데이트 하지 않음에도 불구하고 few-shot setting에서 SOTA를 기록한 것이 놀라웠습니다. 좋은 발표 감사드립니다.


  • 2021-10-27 08:17

    금일 세미나는 prompt based learning에대한 내용을 진행해 주셨습니다. finetuning 이 필요없이 pretraining 만으로 downstream task를 수행할 수 있다는 사실이 매우 흥미롭게 들을 수 있었던 세미나였습니다. 최근 Large Language Model 연구의 흐름과 달리 새로운 시각에서 나온 연구라서 흥미롭게 들을 수 있었습니다.
    Pattern-Exploting Training 에서 verbalizer를 조정해야하는 부분과, Unlabeled data가 필요한 점이 한계점이 있었지만, 앞으로 새로운 후속 연구들이 진행될 수 있는 방향을 제시할 수 있었던 연구라고 생각하였습니다. 이어서 발표해주신 두번째 논문인 P-tuning에서 기존에 성능이 안정적이 않았던 부분과 unlabeled data가 필요한 점을 보완하기 위하여 연속적인 공간에서 Prompt-based learning 수행하여 개선한점이 인상 깊었고, 기존 Language Model 보다 높은 성능을 달성 하였던 것이 매우 흥미로웠습니다. 새로운 연구 방향에 대하여 소개해주셔서 흥미롭게 들을 수 있었습니다. 논문을 이해하기 위한 사전 지식부터 상세히 설명해 주셔서 세미나에 집중하고 이해하는데 많은 도움이 되었습니다. 좋은 발표 감사드립니다.


  • 2021-10-27 23:57

    금일 세미나에서는 발표자께서 지속적으로 다루고 있는 자연어처리 모델들의 scale 그리고 fine tuning 에 관련된 내용입니다. 대부분의 자연어 모델들이 그렇듯, fine tuning, pre-train 이 중요한 이슈로 남아 있는데, 일반적으로는 fine tuning 이 데이터에 따라 좋은 성능을 내게 해준다는 것이 정론이였습니다. Fine-tuning 자체도 사실 큰 리소스가 필요한 것이 사실이고, 그렇기 때문에 계속해서 scale 이 작은 모델, 효율적으로 학습할 수 있는 모델들이 연구 되고 있다고 생각합니다. 이런 기존의 흐름과 다른 새로운 관점의 방법론들이 소개되었고, 흥미로운 주제였습니다. 최근에 특히 더 주목받고 있는 논문이고, 관심있게 따라가 볼 주제라 생각됩니다.


  • 2022-02-11 19:42

    금일 세미나는 in context learning을 활용하여 학습된 pretrained language model(LM)을 효과적으로 사용하기 위해 제안한 prompt-based learning에 대한 소개로 진행되었습니다. Prompt-based learning은 2가지 기법으로 구성되는데, 먼저 첫번째 기법은 pattern exploiting 학습방식입니다. 이는 task와 label을 변환하기 위해 pattern verbalizer pair를 활용하며 pretrained LM이 수행할 수 있는 형태로 문장을 바꿉니다. 또 다른 기법은 P-tuning으로, 이 기법을 추가하여 fine tuning 했을 때에 준하는 성능을 보였으며, P-tuning을 접목시킨 BERT가 GPT보다 우수한 성능을 보임을 실험적으로 증명했다는 사실이 매우 인상적이었습니다. 기존 언어모델을 학습함에 있어 downstream task에의 추가적인 학습과정이 당연하다고 생각되었는데, prompt learning에 대한 설명을 들으며 fine tuning 없이도 좋은 성능을 보일 수 있다는 것을 깨달을 수 있었던 유익한 시간이었습니다. 좋은 발표 감사합니다.


전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15575
관리자 2020.03.12 0 15575
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14306
관리자 2020.03.12 0 14306
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15289
관리자 2020.03.12 0 15289
553
[Paper Review] Why CLIP fails at Dense Prediction Task? (3)
Jinwoo Jang | 2026.04.06 | 추천 0 | 조회 108
Jinwoo Jang 2026.04.06 0 108
552
[Paper Review] Dynamic Large Concept Models (8)
Jaeyong Ko | 2026.03.30 | 추천 0 | 조회 158
Jaeyong Ko 2026.03.30 0 158
551
[Paper Review] Programming Refusal with Conditional Activation Steering (15)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 434
Sunmin Kim 2026.03.10 0 434
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 346
Sunghun Lim 2026.03.01 0 346
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 256
Suyeon Shin 2026.02.25 0 256
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 514
Jaehyuk Heo 2026.02.12 0 514
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 513
Hyeongwon Kang 2026.02.10 0 513
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 616
Hankyeol Kim 2026.02.03 0 616
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13)
Sieon Park | 2026.01.29 | 추천 0 | 조회 610
Sieon Park 2026.01.29 0 610
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 404
Subeen Cha 2026.01.28 0 404

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호