[Paper Review] Understanding In-Context Learning

Paper Review
작성자
Saeran Park
작성일
2023-10-08 11:27
조회
3012
[Paper Review] Understanding In-Context Learning
  1. 논문 제목: Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations
  2. 논문 링크: 바로가기
  3. 세미나 Overview
    • How ICL works로 두가지 논문을 인용하였습니다. 먼저, “Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers”입니다. attention과 gradient기반의 optimization의 dual form을 이용하여 수식적으로 ICL을 meta-optimization의 과정이라는 것을 증명합니다. 두번째 논문은, Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?으로 실험적으로 ICL에서 중요한 요소에 대해 증명하는 논문입니다.
    • 오늘 세미나에서 다룬 논문은, In-Context Learning(ICL)은 LLM을 새로운 작업에 적응시키는 데에 사용되는 방법입니다. 해당 논문은 ICL의 귀납적 편향을 측정하고 분석하는 내용을 담고 있습니다. 첫번째로, feature bias로 다양한 NLP 데이터셋과 특징 조합으로 underspecified demonstration을 구성하여 GPT-3모델의 feature bias 보여줍니다. 두번째로, instruction 또는 label word를 사용하여 intervention의 효과를 평가합니다. 해당 논문을 통해서 ICL의 어떤 특징을 더 활용할 가능성이 있는지와 작업과 잘 맞는 inductive bias에 대한 인사이트를 얻을 수 있습니다.
  4. 발표 자료 : 하단 첨부
  5. 발표 영상 : ">바로가기
전체 20

  • 2023-10-15 23:12

    오늘 세미나는 LLM 관련 연구 중 In-Context Learning의 작동 방식과, 잠재적으로 inductive bias를 유발하는지 여부를 다루었습니다. 첫 번째 논문은 수식적인 증명을 통해 ICL은 사실상 모델을 fine-tuning하는 효과를 거두기 때문에 LLM의 성능을 향상시킬 수 있는 meta-optimizer임을 주장합니다. 이는 Demonstration에 해당하는 토큰은 attention 연산시 사실상의 gradient로 작용하여 파라미터 업데이트를 하는 효과를 거두기 때문입니다. 두 번째 논문은 ICL가 모델의 inducive bias에 끼치는 영향을 실험을 통해 탐구합니다. 구체적으로, 감성분류와 도메인 분류 데이터 셋을 같이 활용하여 데이터 셋을 구성하였고, 각 task의 accuracy를 살펴보아 각 모델이 어떠한 task를 선호하는지 가늠하였습니다. 그 결과, 모델이 tuning된 방식에 따라 각기 다른 feature bias를 보였고, 이는 유저가 원하는 task과 모델이 선호하는 task가 misalign할때 모델의 성능을 저하할 수 있는 요인입니다. 따라서, 해당 논문에선 모델이 적절한 feature bias를 가질 수 있도록 intervention을 가하여 ICL을 각 모델의 특성에 맞게 진행할 수 있는 방법론을 제안합니다. LLM은 크기가 클 수록 잘하더라라는 다소 진부한 담론을 넘어 각 모델의 특성을 섬세하게 분석하는 논문이라 좋았습니다. Demonstration이 LLM의 생성 과정에 크게 관여할 수 있음을 다시 확인할 수 있어서 더욱 유익했습니다. 자세하고 친절한 설명 덕분에 잘 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-10-16 21:55

    금일 세미나는 Large Language Model의 Demonstration 및 Model Parameter 내부에 존재하는 Feature Bias 등의 Inductive Bias를 실험을 통해 보인 "Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations"를 중심으로 진행되었습니다. GPT-3에서 In-Context Learning의 가능성을 보인 이후 현재 매우 많은 논문들에서 LLM은 Demonstration을 통해 Few-Shot Learning을 하는 것이 가능함을 보여왔습니다. 하지만 모델의 Pretrain 과정에서 학습된 Inductive Bias의 영향력 역시 무시될 수 없는 요소라 할 수 있습니다. 본 논문에서는 이를 확인하기 위하여 의도된 Task와 다른 Label 두가지가 동시에 가능한 Dataset을 구축하고 이를 이용한 의도된 Task 및 모호 Task에 대한 성능을 측정하는 방식으로 Inductive Biases를 측정하게 됩니다. 이를 h-accuracy라 칭하며, 이를 통해 모델이 모호 Task에서 왜곡된 Domain에 대한 Biases가 존재하는지 측정할 수 있습니다. 그 결과 모델 및 Instruction Tuning 여부에 따라 Inductive Bias의 종류 및 그 강도가 매우 상이하게 나타나는 것으로 보였습니다. 특히 Insturction Tuning 된 모델의 경우 Prompt및 Instruction을 통하여 이러한 Bias를 완화할 수 있는 점을 보이면서, 다시한번 Instruction Tuning의 중요성을 강조하는 모습이었습니다. 해당 논문에서 제시하는 h-accuracy의 개념 및 Inductive Bias가 실제 사회에 LLM이 광범위하게 적용되기 위하여 매우 중요한 safety 개념의 일환이라는 점을 고려할 때, 어려운 개념을 비교적 쉽게 실험으로 보이는 모습이 인상적이었습니다. 올해 워낙 빠른 LLM의 발전 속도로 인하여 GPT-4, LLaMa2 등의 Safety에 개선 지점이 많은 모델들에서도 비슷한 Inductive Bias 경향이 보일지 역시 매우 궁금해지는 논문이었습니다. 좋은 발표 감사드립니다.


  • 2023-10-18 10:54

    이번 세미나는 Understanding In-Context Learning을 주제로 진행되었습니다. 해당 발표에서는 LLM을 활용하여 ICL(In-Context Learning)이 작동하는지에 대해 수식적으로, 실험적으로 증명하고 있습니다. 다음으로 inductive bias를 feature bias 관점에서 연구하고, ICL 작동에 활용하는 방법을 다룹니다. ICL은 meta-optimization이라고 볼 수 있으며, 이때 forward computation을 통해 meta-gradient를 만들고 있습니다. 이러한 inductive bias가 ICL에서 중요한 이유는 태스크가 불특정적일 수 있다는 ICL의 한계와 관련되어 있습니다. Inductive bias는 layer의 구조를 통해 발생하는 관계에 대한 귀납적 편향이며, 특정 테스크와 관련된 feature bias를 갖고 있으며 prompt 구성 요소에 intervention을 주어 intended task와 관련된 feature bias를 갖도록 하고 있습니다. Non-instruction-tuned LLM에서 instruction은 효과적이지 않으나, explanation이나 disambiguating example들은 효과적입니다. Instruction-tuned LLM에서는 모든 intervention 방법론이 효과적이라는 것을 확인할 수 있었습니다. 수식적인 부분이 꽤 많았는데 각 부분에 대해 명확히 설명해 주셔서 이해에 많은 도움이 되었고, 같이 들어주신 예시들도 인상 깊었습니다. 좋은 발표 감사합니다!


  • 2023-10-19 14:43

    이번 세미나는 LLM 내에서의 In-context Learning(ICL)에 다루는 "Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations" 논문에 대해 발표해 주셨습니다. In-context Learning은 특정 문맥을 고려하여 학습하는 방법이나 기법을 나타낼 때 사용되는 기법입니다. 따라서 Few-shot, Zero-shot Learning 등 학습이 적거나 없는 경우에도 좋은 성능을 보여 LLM에서 프롬프팅만으로 테스크를 수행할 수 있다는 것을 알 수 있었습니다. 크게 2가지 논문을 인용하여 설명해 주셨는데, 첫 번째 논문은 ICL이 모델을 Fine-tuning하는 효과를 거두기 때문에 LLM의 성능을 향상시킬 수 있는 Attention을 Meta Optimizer로 보는 관점에 대해 수식적으로 증명합니다. 두 번째 논문은 Feature Bias의 관점에서 어떤 Inductive Bias가 발생하는지 확인하며 Intended Task와 관련된 Bias를 가지고 있다면 Task 수행에 효과적임을 보였습니다. 결과적으로, 강한 Prior Feature Bias가 있는 경우, Intervention이 오히려 어려운 영향을 끼칠 수 있다는 것을 알게 되었습니다. 이번 세미나를 통해 자연어 처리에서 사용되는 다양한 용어에 대해서 알 수 있었고 최근 LLMs 관련 Prompt Engineering이나 Instruction Learning이 많이 대두되고 있는 상황 속에서 ICL이 어떤 역할을 하고 있는지 수식적으로, 그리고 실험적으로 살펴볼 수 있었던 유익한 시간이었습니다.


  • 2023-10-19 21:45

    금일 세미나는 첫 번째로 LLM과 관련한 연구 중 In-Context Learning (ICL)이 어떻게 수식적으로 작동하는지 설명해주셨으며 두 번째로는 feature bias의 관점에서 prompt에 Intervention을 가한다면 intended task와 관련된 feature bias를 의도적으로 가지게 할 수 있는지에 대한 논문을 소개해주셨습니다. 첫 번째로 ICL이 어떻게 수식적으로 작동하는지에 대해서는 ‘Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers’ 논문을 중심으로 설명이 진행되었습니다. 해당 논문에서는 Linear Layer Optimization의 dual form을 거꾸로 적용하여 parameter update 수식으로 변환이 가능하며 이로써 fine-tuning없이 ICL model이 task를 수행할 수 있음을 주장하고 있습니다. 보다 자세히는 Demonstration 내의 token이 attention mechanism을 통해 meta-gradient를 만들기에 parameter update의 효과와 동일하여 attention을 meta-optimizer로 볼 수 있음을 알 수 있었습니다. 두 번째 논문으로 ’Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations’에서는 Intended task와 관련된 feature bias를 가지는지 확인한 후 prompt에 intervention을 주어 intervention이 효과가 있는지에 대한 평가를 진행하고 있습니다. 해당 논문의 예시로는 sentiment classification와 domain classification 둘 다 가능한 dataset을 바탕으로 h-accuracy를 살펴보며 어떠한 task에 feature bias를 가지고 있는지 확인한 후 사용자가 원하는 intended task와 misalign일 경우 intended task에 맞는 feature bias를 가지도록 다양한 Intervention을 가하는 실험을 진행하고 있습니다. 실험 결과로 Verbalizer, Instruction 등과 같은 intervention은 intended task의 성능을 높이는데 효과가 있었으나 intended task와 다른 feature bias가 이미 강하게 있는 경우 intervention이 효과가 미미함을 알 수 있었습니다. 끝으로, 해당 발표를 통해 LLM과 관련한 최신 연구들 그리고 그에 따른 다양한 용어들을 알 수 있게 되어서 유익하였으며 ICL과 관련한 기초 지식을 알려주시고 직접 찾아보면서 ICL와 연관된 다양한 연구들에 대해 관심을 갖게 되는 좋은 계기가 되었던 것 같습니다. 발표자료 구성과 꼼꼼한 설명을 포함한 발표자의 역량에 다시 한번 감탄하며 발표자분께 감사의 인사를 드립니다.


  • 2023-10-20 09:31

    금일 세미나는 LLM 관련 연구 중 In-Context Learning에서 일어나는 inductive bias에 대한 주제로 진행되었습니다. 첫 번째로 소개된 논문 "Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers"에서는 attention 메커니즘과 gradient-based optimization의 dual form을 연결지어, ICL이 실질적으로 meta-optimization 과정을 거치며 작동한다는 수식적 근거를 제공했습니다. 이 부분은 매우 흥미로웠고, fine-tuning 없이도 ICL이 효과적으로 작동할 수 있는 이유를 명확하게 설명해주었습니다.

    두 번째로 다룬 논문 "Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?"은 실험적 접근을 통해 ICL이 어떤 요소에서 중요성을 가지는지를 탐구했습니다. 특히, 다양한 NLP 데이터셋과 특징 조합을 이용하여 GPT-3 모델의 feature bias를 조사하고, instruction 또는 label word를 활용한 intervention의 효과를 평가해 보았습니다. 이를 통해 어떤 작업에 대한 inductive bias가 더 효과적인지, 또 어떤 특징을 더 활용할 수 있는지에 대한 중요한 인사이트를 얻을 수 있었습니다.

    세미나를 통해, In-Context Learning(ICL)이 LLM에서 어떻게 작동하는지 수식적으로도, 실험적으로도 깊이 있는 분석을 통해 알게 되었습니다. 항상 pretrained 모델에서의 inductive bias가 끼치는 영향에 대하여 고민해보았는데 LLM 분야에서 inductive bias를 자세히 분석하여 사용한 점이 인상깊었습니다. 좋은 발표 감사합니다.


  • 2023-10-21 14:41

    본 세미나는 Understanding In-Context Learning 라는 주제에 대한 리뷰로 진행되었습니다. 본 세미나에서 언급되고 있는 In-Context Learning(ICL)은 LLM을 새로운 작업에 적응시키는 데에 사용되는 방법입니다. 본 논문에서는 ICL의 귀납적 편향을 측정하고 분석하는 내용을 담고 있습니다. 결론적으로 본 논문에서는 In-context learning에서 Inductive bias가 갖는 중요성은 수식과 실험을 통해 주장하고 있습니다. 이러한 Inductive bias가 ICL에서 효과적으로 사용되기 위해서는 LLM이 주어진 task와 잘 맞는 inductive bias를 가져야하고, 이러한 Inductive bias를 LLM에 주입하는 메커니즘이 있다면 ICL이 더 수월하게 진행되고 있다고 언급하고 있습니다. 이를 Text classification problem을 통한 실험으로 보여주고 있습니다. ICL의 작동 원리를 수식적, 실험적으로 잘 풀어낸 연구라는 생각이 들었습니다. 좋은 발표 감사합니다!


  • 2023-10-22 01:43

    이번 세미나에서는 Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers, Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? 논문을 소개해 주셨습니다. 첫 논문이 수식적으로 ICL을 meta-optimization의 과정이라는 것을 증명했다면, 두 번째 논문은 실험적으로 ICL에서 중요한 요소에 관해 설명하고 있습니다. 즉, 이번 세미나에서는 Large Language Model에 In-Context Learning에 적용하는 방법에 관해 설명하며, In-Context Learning이 모델을 fine-tuning하는 효과와 Demonstration이 수행하는 역할을 강조해 주셨습니다. 설명 중 특히 모델이 단지 몇 개의 예시만으로 높은 정확도의 결과를 만들어 낼 수 있다는 것이 놀라웠으며, 논문에서 Inductive Bias와 모델의 성능을 연관지여 모델의 성능은 feature bias와 관련이 깊다고 주장한 것이 인상적이었습니다. 이번 세미나에서 LLM과 ICL에 대한 관계를 생각해 볼 수 있어 도움이 되었습니다. 좋은 발표 감사합니다.


  • 2023-10-22 16:26

    이번 세미나에서는 LLM과 관련하여 In-context Learning에 대해 다뤄주셨습니다. In-context Learning이 수식적으로 어떻게 작동하는지 보여주며, LLM에서 나타나는 특징을 실험을 통해 보여주고 있습니다. 또한 In context Learning을 통해 형성되는 inductive bias를 보여주고 있습니다. 수식적인 증명에서는 결국 ICL은 meta-optimization으로 볼 수 있음을 보여주고 있으며, forward computation을 통해 meta-gradient를 만들고 있음을 보여주고 있습니다. 실험에서 역시 언어 모델의 perplexity가 향상되었고, Momentum-based attention을 사용함으로써 더 좋은 성능을 보여주고 있음을 통해 attention을 meta-optimizer로 보는 관점에 대해 증명하고 있습니다. 본 논문에서는 Feature bias의 관점에서 어떤 inductive bias가 발생하는지 확인하고자 했으며, 결과적으로 intended task와 관련된 feature bias를 가지고 있다면 task 수행에 효과적임을 보여주고 있습니다. In-context Learning이라는 개념이 제게는 상당히 낯선 개념이었지만, 정의부터 In-Context Learning을 다뤘던 이전 논문들 같이 보여주면서 조금 더 나은 이해가 가능했던 것 같습니다. 좋은 발표 감사합니다.!


  • 2023-10-22 16:34

    이번 세미나는 LLM에서 In-Context Learning을 주제로 세편의 논문 내용을 기반하여 진행되었습니다. In-Context Learning이라는 것이 왜 모델의 Downstream Task 성능을 향상시키는지, 그리고 Demonstration을 어떻게 구성하는 것이 성능에 영향을 미치는지 먼저 소개해주셨습니다. 이후 Feature Bias를 비롯한 Inductive Bias 측면에서 GPT-3에서 In-Context Learning에 대해 분석한 “Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations”라는 논문을 메인으로 소개해주셨습니다. 해당 연구에서는 특정 문장이 Sentiment Classification과 Domain Classification이라는 두 가지 Task에 대해서 동시에 적용될 수 있으며 각 라벨이 동일한 경우와 다른 경우를 가정해 실험을 진행했습니다. 그리고 실제 실험 결과 GPT-3가 특정 Task에 대한 Inductive Bias가 존재함을 확인할 수 있었고 또한 Instruction-tuning 여부에 따라서도 상이함을 확인할 수 있었습니다. LLM 성능 측정에서 Zero-shot, Few-shot의 성능 차이가 큰데 이에 대해서 깊이 생각해본적이 없었는데 해당 세미나를 통해 In-Context Learning에 대해 한번 더 고찰해볼 수 있어서 좋은 시간이었습니다. 특히나 In-Context Learning에 대해 수식적으로 증명한 논문에서 In-Context Learning이 일종의 Optimizer 역할을 수행한다는 점을 보인 것이 매우 흥미로웠습니다. 좋은 발표 감사합니다.


  • 2023-10-22 16:58

    이번 세미나에서는 LLM의 In-Context Learning을 주제로 발표가 진행되었습니다. 첫 번째로 다루었던 Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers 논문에서는 ICL을 meta-optimization 과정으로 해석하였습니다. 해당 논문에서는 Transformer 구조에서 demonstration token들에 대한 attention이 forward computation이 이루어지기 때문에 ICL을 meta-optimization이라는 것을 보였습니다. Demonstration token의 attention에 대해 수식적으로 증명한 것이 인상적이었습니다. 추가로 Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? 논문에서는 ICL에 있어 개수와 정답 라벨이 크게 중요하게 작용하지 않을 수 있다는 것을 보였습니다. 이번 세미나의 핵심 논문인 Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations에서는 ICL의 inductive bias에 대한 내용을 다룹니다. 해당 논문에서는 intended task와 관련된 feature bias를 가지고 있는 것이 해당 task 수행에 효과적이며, prompt 구성 요소에 intervention을 주어 이러한 bias의 영향을 보였습니다. 오늘 발표에서는 LLM의 inductive bias에 대해 고민해볼 수 있는 좋은 세미나였던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-10-22 18:08

    이번 세미나에서는 LLM과 관련하여 Large Language Model에서 일어나는 In-context Learning에 대해 설명해주셨습니다. In-context Learning이 작동하는 방식을 수식적으로 보여주며, 언어모델에서 일어나는 ICL의 특징에 대해서 다양한 실험을 통해 보여주고 있습니다. 또한 In context Learning을 통해 형성되는 inductive bias를 보여주고 있습니다. 수학적인 접근을 통하여 ICL은 곧 일반적인 optimization과 유사한 작동을 하는 meta-optimization으로 설명될 수 있으며, 일반적인 optimization에서 backward를 거쳐 gradient가 만들어지듯이 forward computation을 통해 meta-gradient를 만들어짐을 보여주고 있습니다. 요즘 prompting에서 더욱 궁금한것이 많아지는 와중에 너무 흥미로운 발표였습니다. 실질적인 학습이 없는 상황에서 자연어를 입력하는 것만으로 원하는 대답을 얻어낼 수 있는 원리의 기본적인 작동방식에 대해 알려주셔서 정말 감사드립니다. 좋은 발표 감사합니다!


  • 2023-10-22 18:52

    금일 세미나는 Understanding In-Context Learning이라는 주제를 바탕으로 진행되었습니다. 발표는 Large Language Model에서의 In-context Learning이 어떻게 이루어지는지에 대한 수식적인 근거를 제시하면서, In-context Learning이 어떤 요소에서 중요성을 가지는 지 실험적으로 정리하는 순으로 진행되었습니다. 마지막으로, In context Learning에서의 Inductive Bias에 대하여 다루어 주었습니다. 먼저 첫 번째 논문에서는 기본적으로 Fine-tuning은 Optimization 과정이고, 이때 In-context Learning은 meta-optimization 과정이라고 말하고 있으며, 이때 Attention mechanism이 Meta-optimizer로써 수행된다는 것을 수식적으로 설명해주고 있습니다. 즉, In-conext Learning을 수행함으로써 Meta-optimization을 진행함으로써, 특별한 Fine-tuning이 없어도 모델이 효과적으로 작동하는 이유에 대하여 설명하고 있습니다. 두 번째 논문에서는 In-context Learning의 성능에 중요한 영향을 주는 요소에 대하여 실험적으로 증명하여 제시해 주고 있었습니다. 마지막 논문에서는, In-context Learning에서의 Inductive Bias에 대하여 다루어주고 있습니다. 그 결과, Intended task와 관련된 Feature bias를 가진다면 Task 수행에 효과적임을 보이며, Prompt 구성 요소에서 Intervention을 주어 Intended task와 관련된 Feature bias를 갖도록 함으로써 효과적으로 Task를 수행할 수 있도록 하는 것이 좋음을 보였습니다. 좋은 발표 정말 감사드립니다.


  • 2023-10-22 19:39

    본 세미나는 박새란 발표자님의"Understanding In-Context Learning"이라는 주제로 진행되었습니다. 특히 In-context learning의 수식적인 작동과, 특징을 실험적으로 증명했는지 설명하고 있고 inductive bias에 대해 다루고 있습니다. 첫 번째로 In-contest learning의 수식은 Meta-topimizer로서 attention 수식에 기반하여 증명하고 있고, 두 번째로 Inductive bias가 Intended task와 관련된 feature bias를 가지고 있다면 효과적이라는 것을 보여줬습니다. 또한 Prompt 구성 요소에서 Intervention을 주어, intended task와 관련된 feature bias를 갖도록 하나 강한 prior feature bias가 있는 경우 intervention이 어렵다고 하고 있습니다. 가장 흥미롭게 들었던 부분은 GPT-3와 가은 모델은 어떤 Feature bias를 가지고 있는지, 또한 특정 태스크와 관련된 feature에 치우치도록 하는 in-context learning은 성능이 좋아진다는 research question에 따른 실험결과입니다. 들으면서 든 생각은 과연 task agnositc한 특성이 강한 LLM에게 어떻게 하면 특정 태스크의 성능을 높이는 feature bias를 심어줄 수 있는지가 궁금했고, 이 feature bias를 주는 것이 향후 연구가 될 것이라고 생각했습니다. In-context learning에 대한 분석 논문이 매우 어려운데 차근차근 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2023-10-22 22:01

    금일 세미나에서는 Large Language Model (LLM)의 In-Context Learning (ICL) 작동 방식과 이를 통한 inductive bias의 영향을 다루었습니다. 첫 번째 논문 "Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers"는 수식적으로 ICL이 meta-optimization의 과정임을 증명하며, attention과 gradient 기반의 optimization이 dual form 관계에 있음을 보여주었습니다. 두 번째 논문 "Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?"은 실험을 통해 ICL에서 중요한 요소들을 언급했습니다. 세미나에서 주로 다룬 논문 "Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations"은 ICL의 귀납적 편향을 측정하고 분석하였습니다. 첫째로, 다양한 NLP 데이터셋과 특징 조합을 사용하여 GPT-3 모델의 feature bias를 보여주었습니다. 둘째로, instruction 또는 label word를 사용하여 intervention의 효과를 평가하였습니다. 이를 통해 ICL의 어떤 특징을 더 활용할 수 있는지, 그리고 작업과 잘 맞는 inductive bias에 대한 인사이트를 얻을 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-10-22 22:49

    이번 세미나는 Understanding In-Context Learning를 주제로 진행되었습니다. In-context Learning이 어떻게 작동하는지 확인하기 위해 첫번째 논문인 Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers에서는 수식적으로 어떻게 작동하는지 보여주며 meta-optimization으로 볼 수 있다는 것을 보였습니다. 두번째 논문에서는 다양한 실험을 통해 보였습니다. 그 다음 ICL의 inductive bias에 대해 분석하기 위해 메인 논문인 Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations에서는 GPT-3가 어떤 feature bias를 가지고 있는지, 특정 태스크와 관련된 feature bias를 갖도록 하는 ICL은 성능이 더 좋아지는지 확인하였습니다. 결과적으로 관련된 태스크에 대한 feature bias를 갖도록 하는 ICL이 성능에 영향을 끼치는 것을 확인하였습니다. ICL에 대해 처음 접하였는데 세미나 자료를 통해 쉽게 이해 할 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-10-22 23:05

    이번 세미나는 Understanding In-Context Learning이라는 주제로 LLM의 In-Context Learning의 동작 방식과 관련된 두 편의 논문에 대한 리뷰가 진행되었습니다. 첫 번째로 소개해주신 "Why Can GPT Learn In-Context? LM Implicitly Perform Gradient Descent as Meta-Optimizers" 논문에서는 ICL에서 attention 과정이 meta-optimizer로서의 역할을 수행하여 결국 ICL을 meta-optimization 과정으로 간주할 수 있음을 수식적으로 풀어냈습니다. 두 번째로 소개해주신 Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?" 논문에서는 두 가지의 text classification task를 조합하여 ICL의 inductive bias를 알아보는 실험을 진행하여 실제로 inductive bias가 LLM의 ICL에서 중요한 역할을 수행함을 확인했습니다. 최근 LLM과 관련된 다양한 연구 중 ICL의 동작 원리 관련하여 분석하는 논문은 해당 세미나를 통해 처음 접했는데 덕분에 흥미롭게 들을 수 있었던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-10-22 23:14

    이번 세미나는 NLP 도메인에서의 In-context learning에 대한 전반적인 background 소개와 관련된 논문인 "Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations"에 대해 진행되었습니다. 우선적으로 background를 통해 meta-optimizer로써 attention 수식에 기반하여 In-context learning에 대한 증명을 이해해볼 수 있었습니다. 이후 In-context learning에 inductive bias가 존재하는가에 대한 다양한 분석 결과에 대해 확인할 수 있었는데, 그 결과로 intended task와 관련된 feature bias를 갖고 있는 경우에는 task 수행에 효과적일 수 있음과 prompt 구성 요소에서 intervention을 주게 된다면 intended task와 관련된 feature bias를 획득할 수 있다는 점을 알 수 있었습니다. 다만, 강한 prior feature bias가 존재하는 경우에는 해당 intervention이 어렵다는 점 또한 확인할 수 있었습니다. 3가지 각기 다른 논문들을 통해 각각의 핵심 내용들을 요약하여 전달해주셔서 빠르게 중요한 포인트들을 확인해볼 수 있었던 것 같습니다. 좋은 발표 준비해주셔서 감사드립니다.


  • 2023-10-23 16:09

    이번 세미나는 in-context learning에 대해 다루어주셨습니다. 첫 번째 논문을 통해 in-context learning이 어떻게 작동하는지에 대해서 수식적으로 파악해 볼 수 있었는데, 결국 meta-optimization 관점으로 in-context learning이 작동한다는 것을 알 수 있었습니다. 두 번째 소개해주신 논문에서는 inductive bias 관점에서 in-context learning이 왜 작동하는지에 대해서 살펴보았는데, task와 관련된 bias를 갖고 있을 경우 성능이 높아졌고, 따라서 적절한 prompt 구성을 통해 하고자 하는 task와 관련된 bias를 획득할 수 있다면 마찬가지 효과가 나타난다는 것을 실험적으로 보였습니다. 두 논문 모두 in-context learning의 작동 원리에 대해 파악하고자 하였는데, 해당 연구를 이해하는데 있어 큰 도움이 될 수 있는 논문이라 생각하였습니다. 좋은 세미나 감사합니다.


  • 2023-10-23 16:11

    이번 세미나에서는 LLM(Large Language Model)의 In-context learning(ICL) 에 대해 소개되었습니다. ICL을 쉽게 표현하면, 주어진 입력 값 내부적으로 이미 query로 주어진 task를 해결하는데 도움이 되는 많은 정보들을 파악하는 것이라 볼 수 있습니다. 가령, few-shot learning도 이에 해당할 수 있을 것입니다. 특별히, 효과적인 ICL을 이끌기 위해서는 모델의 Inductive bias를 적절히 사용하는 것이 중요함을 본 세미나에서 중점적으로 다루었습니다. 일반적으로 머신러닝에서 inductive bias는 마치 주어진 데이터로 학습된 모델이 한번도 보지 못한 데이터에 대해 추론(inference)을 진행할 때 안정적인 일반화를 위해 내재적으로 가지게되는 가정이라고 볼 수 있습니다. 내재적이 될 수도 있고 혹은 사용자가 직접 의도적으로 주입할 수도 있다고 판단합니다. 그래서 LLM 또한 자체적으로 가지고 있는 inductive bias가 사용자의 의도 맞지 않게되면 해당 task에서 좋지 못한 성능을 내게 됩니다. 따라서 ICL을 통해 사용자의 의도를 어떻게 주입하여 LLM내 inductive bias와 맞출 수 있을지가 핵심이 될 것입니다. 이에 소개해주신 연구에서 여러가지 setting(Semantic verbalizer, Instruction, Explanation, Disambiguation 등) 하에 ICL을 진행하여 원하는 방향으로 모델을 학습시킬 수 있는지 실험하였습니다. LLM 자체의 개발이 아닌 이상 입력 값(prompt)을 어떻게 구성하는 지에 대한 연구가 한동안 집중될 것으로 보이고 ICL도 이에 큰 축을 담당하고 있지 않나 생각합니다. 중요한 내용 소개해주신 발표자 분께 감사드립니다.


전체 501
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10313
관리자 2020.03.12 0 10313
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8928
관리자 2020.03.12 0 8928
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10036
관리자 2020.03.12 0 10036
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (4)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 60
Sunghun Lim 2025.04.24 0 60
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (5)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 73
Suyeon Shin 2025.04.21 0 73
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (8)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 129
Woongchan Nam 2025.04.16 0 129
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (10)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 242
Kiyoon Jeong 2025.04.16 0 242
494
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 297
Hyeongwon Kang 2025.04.09 0 297
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 292
Jaehyuk Heo 2025.04.02 0 292
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 287
Jaehee Kim 2025.04.02 0 287
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 261
Jungho Lee 2025.04.02 0 261
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 248
Hankyeol Kim 2025.03.25 0 248
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 360
Sieon Park 2025.03.19 0 360

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호