Seminar

BOARD

[Paper Review] LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS

Paper Review

작성자

JoongHoon Kim

작성일

2023-09-14 23:07

조회

4124

1. 논문 제목: LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS (ICLR 2023)

논문 링크: https://arxiv.org/abs/2211.01910
논문 코드: https://github.com/keirp/automatic_prompt_engineer

2. 논문 Overview

Prompt의 quality에 task performance가 민감하기 때문에 최적의 prompt를 선택하는 것은 중요함
AutomaticPromptEngineer(APE): 자동으로 Instruction을 생성하고 선택하는 방법론
LLM으로 instruction candidate set을 생성하고, score function을 통한 filtering 과정을 거쳐 최적의 instruction을 선택

3. 발표자료 및 발표영상

발표자료: 하단 첨부
발표영상: ">

전체 21

Jaehee Kim

2023-09-18 11:19

이번 세미나는 Large Language Model의 입력으로 사용되는 Prompt를 모델이 직접 생성할 능력이 있다는 점을 보여준 "Large Language Models are Human-Level Prompt Engineers"를 중심으로 진행되었습니다. 해당 논문이 발표되던 작년까지만 하더라도 LLM의 능력에 대해 아직 밝혀진 바가 매우 제한적인 시점이었습니다. 이러한 상황에서 LLM이 동일한 태스크에서 다른 입력 형태에 따라 성능 격차가 매우 크다는 CoT와 같은 논문이 발표되면서, Prompt를 구축하는 방안에 대한 논의가 진행되었던 것으로 보입니다. 해당 연구는 LLM이 다양한 프롬프트를 생성하도록 하여, Prompt Pool을 생성한 후 실제 downstream task에 대한 성능 측정을 통해 최종 prompt를 선택하는 모습을 보여주고 있습니다. 이때, LLM의 inference 비용이 막대하므로, Efficient Score Estimation 방법론인 Adaptive Filtering Scheme 역시 제안하고 있습니다. LLM 관련 연구가 매우 빠르게 진행되면서, 구체적인 방법론은 다소 out-dated 되었을 수 있으나, prompt를 구축하는 방식과 모델이 생성한 output을 평가하는 큰 프레임워크를 제안했다는 측명헤서 매우 유의미한 논문인 것 같습니다. 좋은 발표 감사드립니다.
SeungHun Han

2023-09-20 15:08

이번 세미나는 Prompt Engineering을 주제로 진행되었습니다. LLM의 빠른 발전 덕분에 다양한 NLP 과업에서 큰 진보를 이루게 되었습니다. 모델의 크기를 키우고 학습 데이터를 증가하는데 치중한 과거 연구와 다르게, 현재는 LLM이 원하는 task를 잘 수행할 수 있는 prompt를 생성하여 입력하는 소위 "prompt engineering"에 대한 연구가 고도화되고 있습니다. 모델이 답변을 생성하는 과정에서 모델이 스스로 'reasoning'을 하는 과정을 거치는 CoT를 비롯하여 다양한 시도가 이어지고 있습니다. 해당 논문은 다양한 Instruction Candidate set을 생성한 뒤, score function을 활용하여 filtering을 한 뒤 점수가 가장 높은 instruction을 선택하는 과정을 거칩니다. 단순히, 많이 만들어서 가장 좋은 prompt를 사용한다 볼 수 있기 때문에 scoring function이 가장 중요하다 생각하였습니다. 해당 논문은 단답형의 answer를 요하기 때문에 instruction이 모델에 입력되었을때 golden label을 잘 출력하는지 판단하여 scoring하였습니다. Candidate set에서 최적의 instruction을 선택하는 과정에서 좋은 contribution을 가지지 않나 생각이 들었습니다. 다만, 실험 파트에서 문장 생성 task의 경우 Accuracy를 판단한 과정에 추가적인 설명이 필요하지 않나 싶습니다. LLM의 성능이 더욱 발전함에 따라 이들을 잘 제어할 수 있는 방법도 중요할 것 같습니다. 자세한 설명과 깔끔한 자료 덕분에 좋은 내용을 잘 이해할 수 있었습니다. 좋은 발표 감사합니다.
Woongchan Nam

2023-09-20 19:12

이번 세미나는 최적의 instruction을 선택하는 방법을 제안하는 'Large Language Models are Human-Level Prompt Engineers'라는 논문을 소개해 주셨습니다. 해당 논문에서는 LLM을 기반으로 하여 여러 개의 Instruction candidate set을 만든 후 high-quality의 instruction을 filtering하고자 Score function을 설계함으로써 최적의 instruction을 탐색하는 Automatic Prompt Engineer (APE)를 제안하였으며, 이 과정에서 모든 proposal된 instruction들이 diversity가 부족할 경우를 대비하여 iterative하게 Monte-Carlo 방법을 사용한 Iterative Monte Carlo Search를 별도로 두어 전반적으로 instruction의 quality를 향상하고자한 방식이 인상적이었습니다. LLM의 입력으로 사용되는 prompt가 이제는 LLM이 prompt를 생성한 뒤 최적화하는 해당 방법론을 보면서 LLM을 과연 어디까지 활용할 수 있을지, 그 활용 가능성에 대해 다시 한번 생각해 보게 되는 유의미한 논문이라고 생각하였고 다만, 한 가지 아쉬웠던 점은 발표자의 의견과 동일하게 다른 prompt engineering 방법론들과 비교를 진행하지 않고 해당 방법론과 human baseline만을 비교로 했다는 점에서 아쉬웠으며 해당 방법론이 좋은 instruction, prompt를 만들 수 있다는 것을 다양한 기존 prompt engineering 방법론들과 비교하여 좋은 결과를 보였다면 더욱 좋은 contribution을 가져가지 않았을까라는 생각이 들었습니다. 끝으로, 발표 자료 내의 다양한 예시들과 발표자분의 자세한 설명 덕분에 이해하는데 매우 매우 수월했던 것 같습니다. 좋은 발표 정말 감사드립니다.
Minjeong Ma

2023-09-21 15:58

Prompt Engineering은 프롬프트 내의 엔지니어링을 최적화하는 것으로 이에 따라 LLM의 성능이 크게 좌지우지됩니다. Instruction induction은 LLM이 주어진 예제에 적합한 instruction을 제시할 수 있는지 평가하기 위한 Task로 Automatic Prompt Engineer(APE) workflow를 설명해 주셨는데 이는 LLM으로 instruction candidate set을 제안하고 정제한 뒤 가장 성능이 좋은 instruction을 선택하는 기법입니다. Instruction을 평가하는 것이 answer의 정답 여부이기 때문에 이 자체를 평가하는 방법은 사실상 없다고 합니다. 그럼에도 불구하고 Greedy, Human 알고리즘으로 어느 정도 정량적으로 평가할 수 있는 지표가 생기게 되었고 APE 알고리즘이 앞의 두 방법론보다 좋은 결과를 가져온 것을 알 수 있었습니다. 본 세미나를 통해 요즈음 많은 화두에 있는 LLM과 그 평가 방법에 대해 알 수 있었으며 특히 Promt는 LLM 입력에 들어가는 전체 텍스트, Instruction은 Task에 대한 명시적인 지시 문장, Question은 원하는 인풋 형태, Demonstration은 예시 문장이라는 용어에 대한 개념도 자세히 알 수 있었던 유익한 시간이었습니다. 평소 관심 있었던 분야에 대해 평가 방법부터 각종 방법론까지 자세히 알려주셔서 감사드립니다.
Doyoon Kim

2023-09-23 18:52

이번 세미나는 거대언어모델(Large Language Model)을 소재로 어떻게하면 LLM이 조금 더 질이 좋은 결과물을 출력할 수 있을지에 대해 입력 값이 되는 prompt를 연구하는 prompt engineering을 주제로 진행되었습니다. Prompt는 크게 다음의 두 가지로 구성되어 있다고 볼 수 있습니다: Instruction, Demonstration. Instruction은 사용자가 희망하는 task를 설명해주고 demonstration은 일종의 예시(example)라고 볼 수 있습니다. 따라서 demonstration의 유무에 따라 few/zero shot으로 구분 가능합니다. 소개해주신 논문에서는 LLM을 통해 instruction 후보군을 생성한 다음 일련의 평가와 후보군 재생성을 반복하여 최선의 instruction을 선택하는 automatic prompt engineering을 진행하고 있습니다. “ ‘아’ 다르고 ‘어’ 다르다’는 표현이 이제는 비단 사람들에게만 국한된 이야기는 아닌 것 같습니다. 한편, LLM의 궁극적인 지향점은 결국 얼마나 사람처럼 결과물을 출력할 수 있을까 일 것입니다. 그리고 현재 수준에서는 정확한 사실 및 진리를 잘 출력하도록 연구가 지속되고 있는 것으로 보입니다. 중요한 것은 사람처럼 이라는 평가 기준의 설정이 되지 않을까 싶습니다. 다르게 표현하면, 어느 정도 사실 관계를 제대로 파악하는 수준이 된다면 그 후에 연구방향은 어떻게하면 내가 원하는 방향으로 모델이 생각할 수 있게 만들까, 혹은 원하는 페르소나를 입력하기 위해서는 어떻게 훈련해야할까의 주제로 전환되지 않을까 생각합니다. 발표자 분께서 해당 분야에 대해 여러 연구 결과를 잘 탐색하신 것 같습니다. 유익한 발표에 감사드립니다.
Hyungseok Kim

2023-09-24 16:34

금일 세미나 시간에는 김중훈 석사과정이 “LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS” 라는 논문을 주제로 진행해주었습니다. 해당 논문은 논문의 주제에서 유추할 수 있듯이 LLM에서의 prompt에 대한 중요성을 강조하면서 human-level 수준의 최적의 prompt를 선택방법론을 제안함으로써 다양한 language understanding task에서 유의미한 성능 결과를 보여주었습니다. 현시점 LLM은 거의 모든 task에서 SOTA의 performance를 보여주며 계속해서 그 한계를 스스로 갱신하고 있습니다. Prompt는 이러한 LLM의 출력을 생성하기 위한 시작점으로 모델과 상호작용하는 파트이기에 Prompting Engineering은 실제 사용자의 의도와 원하는 출력을 효과적으로 생성하는데 있어 필수적이라고 생각합니다. Pre-training된 LLM을 별도의 학습없이 사용자가 원하는 답변을 생성하도록 입력 프롬프트를 효과적으로 설계하는 Prompting Engineering에 따라서 LLM의 성능은 천차만별이기 때문입니다. 해당 논문에서는 “Automatic Prompt Engineer (APE)” 라는 workflow를 통해서 자동으로 Instruction을 생성하고 선택하는 방법을 통해 최적의 instruction 선택하도록 유도하였습니다. 여기서 Instruction proposal candidate set은 LLM을 통해서 생성되며 이에 대한 scoring 과 filtering 과정을 반복적으로 수행해서 조건이 충족된 instruction을 통해 LLM의 출력을 유도합니다. 개인적으로 최근 NLP분야에서는 새로운 구조의 LLM보다는 기존 LLM을통해 prompt engineering 혹은 tuning을 통해 성능을 개선하고자 하는 연구 트렌드가 주가 되고 있다는 느낌을 받았습니다. LLM을 활용하는 과정에서의 사용자의 테크닉 혹은 스킬에 따라서 그 성능이 크게 달라지기 때문이라고 생각됩니다. LLM관련해서 유용한 내용을 소개해준 발표자에게 감사의 인사 전하며 후기 마치도록 하겠습니다.
SangMin Lee

2023-09-25 15:35

본 세미나는 김중훈 발표자님께서 "LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS"라는 논문을 바탕으로 진행해주셨습니다. 해당 논문의 핵심은 Prompt quality에 task performance가 민감하기 때문에, 최적의 prompt를 선택하는 것은 중요하다는 것입니다. 따라서 Automatic Prompt engineer라는 방법론을 바탕으로 자동으로 Instruction을 생성 후 선택함으로써 최적의 Instruction을 선택하는 방법을 제안하고 있습니다. 특히 background로 Instruction Induction이라는, LLM이 주어진 예제에 적합한 Instruction을 추론할 수 있는지 평가하는 task가 흥미로웠습니다. Instruction의 quality를 평가하는 방법론이 없었기 때문에, 실험을 위해 해당 task 제안됨으로써 향후 Instruction optimization 연구가 수월히 진행될 것이라고 생각했습니다. 또한 이 논문의 핵심인 Automatic Prompt engineer라는 방법론은 생성과, 필터링으로 나눠집니다. 특히 여기서 필터링 방법이 중요한데, test dataset의 평균 score로 Instruction quality를 평가하고 있습니다. 하지만 시간적으로 비효율이기 때문에, Iterative Monte Carlo Search를 상요해서 computation cost를 낮추고 있습니다. 마지막으로 Prompt engineering이라는 최근 LLM 연구의 핫한 분야를, 프레임워크화 해서 푸는 방법론에 대해 매우 흥미로움을 느꼈습니다. 좋은 발표 준비해주셔서 감사합니다.
Seonggye Lee

2023-09-26 11:49

본 세미나는 LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS 라는 주제의 논문에 대한 리뷰를 진행하였습니다. LLM의 발전과 더불어 적절한 prompt의 선택이 performance에 민감하게 영향을 주고 있음이 다수의 연구를 통해 보여지고 있습니다. 본 논문은 이러한 흐름에 맞춰 Automatic Prompt Engineer (APE) 라는 자동으로 instruction을 생성하고 선택하는 방법론을 제안합니다. LLM으로 instruction candidate set을 생성하고, score function을 통한 filtering 과정을 거쳐 최적의 instruction을 선택하는 방식으로 진행됩니다. LLM을 극도로 활용하였다는 생각이 들었던 논문이었습니다. Prompt의 학습 조차 LLM을 활용하여 적절한 방법으로 prompt 선택을 자동화 했다는 생각이 들었습니다. 또한 LLM을 통해 prompt를 선택하는 방식이 굉장히 논리적이었다고 판단됩니다. 좋은 발표 감사합니다!
Kyoungchan Park

2023-09-26 14:37

이번 세미나에서는 논문 "LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS"에 대해 소개해주셨습니다. 해당 논문은 최적의 prompt를 만들기 위한 방법을 제안하였습니다. prompt quality에 따라 성능이 크게 좌지우지 되기 때문에 prompt engineering은 현재 NLP 분야에서 각광을 받고 있습니다. 따라서 최적의 prompt를 자동으로 구성할 수 있다면 LLM에 대한 실용성이 극대화 될 수 있습니다. 이런 관점에서 본 논문의 Automatic Prompt Engineer (APE) 연구는 해당 분야에서 중요한 연구로 보여집니다. 해당 연구는 자동으로 instruction을 생성한 후 해당 instruction set에서 최적의 instruction을 선택하는 과정에 대한 방법론을 제안하는 것인데, 본 논문에서는 이런 framework를 제안했다는 점에서 의의가 크다고 생각했습니다. 세미나를 통해 해당 과정이 어떻게 진행되는지 잘 알 수 있었고, 특별하게 참신했던 아이디어는 없었지만, 논리적으로 탄탄하다고 생각하였습니다. 또한 computation cost를 줄이기 위해 Adaptive Filtering Scheme를 제안한 부분에서 방법론의 완성도를 높였다고 생각했습니다. 좋은 발표 감사드립니다.
SeongHee Hong

2023-09-27 10:05

이번 세미나에서는 “Large Language Models are Human-level Prompt Engineers”이라는 논문에 대해 소개해주셨습니다. 해당 논문은 LLM을 이용해 Instruction을 생성하고 Score Function을 이용해 최적의 Instruction을 선택하는 방법론을 제안했습니다. 약 2년 전부터 Hard/Soft Prompt 관련 연구들에서 사람이 직접 만든 템플릿 형태의 Hard 프롬프트를 사용한 경우와 Continuous Vector 형태의 Soft Prompt를 사용한 경우에 대한 연구가 시작되어 작년까지 활발히 진행되었습니다. 2021년에 LM-BFF라는 방법론이 Template을 Automatic하게 생성하는 방식을 제안했는데, 이번 세미나에서 소개된 방법론 또한 이와 맥을 같이하여 Downstream Task 성능을 기준으로 최적의 Instruction을 생성 및 선정하는 방식을 보이고 있습니다. Hard/Soft Prompt 관련 연구에서는 모델을 이루는 값 자체가 Continuous Space에 존재하는데 텍스트는 Discrete Space에 존재한다며 텍스트 형태의 템플릿을 엔지니어링 하는 것은 Sub-optimal일 수 있음을 지적했었습니다. 그러나 현재 대다수 LLM은 오직 API 형태로만 사용 가능하기에 모델 내부에 접근이 필요한 Soft Prompt 방식은 이용이 불가능합니다. 향후 LLM의 Instruction Tuning 관련해서 어떤 연구들이 또 이어질지 궁금증을 갖게된 발표였습니다. 좋은 발표 감사합니다.
Jinwoo Park

2023-09-27 12:20

금일 세미나는 “Large Language Models Are Human-Level Prompt Engineers” 논문을 바탕으로 진행되었습니다. 최근 LLM의 비약적인 발전으로 인하여 LLM에 어떤 형식으로 Input을 넣어야 하는가 역시 매우 중요한 연구가 되었습니다. LLM은 모델 특성상 동일한 Task에서도 서로 다른 Input 형태가 성능에 큰 영향을 미치며, 간단한 문장을 추가하는 것만으로도 상당한 성능 격차가 존재합니다. 이에 언어 내의 Prompt를 최고의 성능을 낼 수 있도록 최적화하는 Prompt Engineering이 화두가 되었으며, 이에 복잡한 질문을 여러 질문으로 나눔으로써 모델이 해당 과정을 추론하는 과정을 쉽게 만드는 Chain-of-Thought 과 같은 방법론이 대두 되었습니다. 이때, 해당 논문에서는 LLM을 통하여 생성한 Prompt들을 Instruction candidate set으로 구성한 후, 동일한 LLM을 통하여 Scoring을 진행합니다. 다음으로 이전에 제안되었던 Candidate set들을 Scoring을 통하여 Filtering하거나 아니면 Refine을 하게 되고, 이후 최종적으로 Score가 가장 높았던 Instruction을 최종적으로 사용하는 것이 해당 논문에서 제안하는 방법론이었습니다. 이 모든 과정을 동일한 LLM만을 통하여 Prompt를 만들고 평가하는 방식이 신기하게 다가왔으며, LLM의 발전으로 인하여 해당 분야에 다양한 Task가 생겼다는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.
Hun Im

2023-09-27 12:41

이번 세미나에서는 LLM에게 최적의 Prompt를 입력하도록 도와주는 방법을 제시하고 있는 LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS에 대해 다뤄 주셨습니다. 해당 논문은 LLM에게 입력하는 Prompt의 quality에 따라 Task Performance가 크게 바뀔 수 있다고 이야기 하며 따라서 최적의 Prompt를 선택하는 것이 중요하다고 주장합니다. 이를 위한 방법론으로 자동으로 instruction을 생성하고 선택하는 방법론인 Automatic Prompt Engineer 방법을 제시하며, instruction candidate set을 생성하고 score function을 통한 filtering을 거쳐 최적의 instruction을 선택하도록 합니다. 해당 방법은 크게 Proposal과 Scoring 2 단계로 구성 되며 LLM으로 insrcution candidate set을 propose 하며 scoring function을 통해 score 가 가장 높은 instruction을 선택합니다. 이 때 어떤 기준으로 scoring을 하냐가 중요하다 생각 되는데, 이는 Dataset과 생성된 instruction 간의 alignment를 평가하고자 하며 Held-out test dataset의 평균 score로 instruction의 quality를 평가합니다. 좋은 결과를 위해서는 최적의 Prompt가 필요하다는 것에 동의하며, 자동으로 Prompt Tuning 하는 방법은 많은 도움이 될 것이라 생각 됩니다. 하지만 개개인이 원하는 결과에 따라서 프롬프트가 달라질 것이라 생각되며 개인에 맞춘 프롬프트 또한 필요하지 않을까 생각이 들었습니다. 좋은 발표 감사합니다!
Sunwoo Kim

2023-09-27 20:23

이번 세미나에서는 “LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS” 논문을 다루어 주셨습니다. 해당 논문에서는 prompt의 품질이 테스크 성능에 많은 영향을 줄 수 있기에 최적의 prompt를 선택하고자 하고 있습니다. 이때, 크게 proposal과 scoring 단계로 구성되는 Automatic Prompt Engineer (APE)를 제안하고 있으며 자동으로 instruction을 생성하고 선택하고자 하고 있습니다. 우선, LLM으로 생성한 instruction candidate set을 제안하고, score function을 통해 제안된 candidate set을 필터링(정제)합니다. filtering시 고품질 candidate에 computation resource를 많이 할당하고, 저품질 candidate에 적게 할당하는 filtering scheme을 사용합니다. score function은 데이터셋과 생성된 instruction간의 alignment를 평가하기 위해 이용되며 held-out test dataset의 평균 score로 instruction의 품질을 평가합니다. 마지막으로 score가 가장 높은 instruction을 최종적으로 선택합니다. prompt engineering을 black-box 최적화 문제로 바꿔서 자동화한 점이 인상깊었습니다. 좋은 발표 감사합니다!
Woojun Lee

2023-09-28 14:09

이번 세미나에서는 'Large Language Models are Human-Level Prompt Engineers'라는 논문을 주제로 발표를 진행했습니다. 위 논문은 LLM의 입력 형태에 따라 얼마나 성능이 변화하는지, 그리고 이를 최적화하는 방법론에 대한 설명하고 있습니다. 다양한 실험 결과와 그 해석을 섬세하게 설명하면서, LLM의 prompt engineering에 대한 최신 연구 동향을 잘 요약해 주었습니다. 특히, 자동화된 prompt 엔지니어링 기법의 중요성과 이를 통한 성능 향상 가능성에 대한 부분은 매우 흥미로웠습니다. 세미나의 내용은 LLM 연구와 관련된 동료 연구원들에게 큰 도움이 될 것으로 예상됩니다. 요즘 제가 개인적으로 관심있는 , LLM의 prompt engineering에 대한 흥미로운 주제로 재밌게 세미나를 잘 준비한 김중훈 석사과정님게 감사합니다는 인사말을 싶습니다. 좋은발표 감사합니다.
Saeran Park

2023-09-28 21:00

이번 세미나는 “LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS” 논문으로 진행되었습니다. 해당 논문은 LLM이 prompt에 sensitive하다는 점을 보완하기 위해 최적의 prompt를 자동으로 선택하는 방법을 제안하는 논문입니다. LLM을 이용하여 instruction 후보군을 생성하고 score function을 통해 필터링하여 최적의 instruction을 선택하는 방법(Automatic Prompt Engineer)입니다. 후보군을 생성하는 방법으로는 template에서 빈칸을 주어 빈칸에 들어갈 문장을 모델이 생성합니다. 그 후, score function으로 각 task에 대한 평가지표를 사용하고 평가 지표 점수에 따라서 최적의 프롬프트를 선택합니다. APE 알고리즘은 LLM의 크기 또는 성능에 크게 의존하는 방법으로 보입니다. 모델이 잘못된 편향을 가지고 있으면 APE로 생성한 instruction 또한 잘못된 편향을 가질 수 있습니다. 하지만 다른 방법론들에 비해 사람의 개입이 적은 프롬프트 구성 방법입니다. 좋은 발표 감사합니다.
Kiyoon Jeong

2023-09-28 23:02

이번 세미나에서는 "Large Language Models are Human-Level Prompt Engineers"라는 논문을 소개해 주셨습니다. 이 논문은 LLM을 기반으로 한 Automatic Prompt Engineer (APE)를 소개하며, 최적의 instruction을 찾기 위해 다양한 후보 instruction을 생성하고 이를 평가하기 위한 Score function을 설계하는 방법을 제안합니다. 저도 요즘 프롬프트 튜닝에 관련된 워크샵에 참가 중이라 더욱 발표 내용에 관심이 갔습니다. 프롬프트만을 튜닝하여 human evalutation과 유사한 score를 출력하게 만드는 워크샵인데 이번 세미나에서 영감을 받고 실제로 도입해서 괜찮은 성능을 확보했습니다. 실제로 도입하여 사용해보니 논문의 주장과 비슷하게 작동되는 것과 그렇지 않은게 구분되어 세미나 이후 논문과 코드를 실제로 살펴봐야겠다는 생각을 했습니다. 여러가지 생각을 하게 도와주신 발표자님께 감사드립니다. 좋은 발표 감사합니다!
Jiyoon Lee

2023-09-28 23:48

이번 세미나에서는 "Large Language Models are Human-Level Prompt Engineers"에 대해 소개해주셨습니다. 해당 논문은 기존에 LLM에게 어떻게 prompt를 주는 것이 좋을지를 사람이 직접 고민하는 것이 아닌, 모델이 스스로 최적의 instruction을 생성하고 선택하도록 하는 Automatic Prompt Engineer(APE) 방법론입니다. 1차적으로 LLM에게 input과 output demonstration을 주고 이를 바탕으로 candidate instruction set을 생성하게 됩니다. 이렇게 생성한 candidate set에 대해 Execution accuracy와 Log probability의 score fuction으로 필터링 과정을 거치게 되고, 필터링을 통과한 sample들 중 training data에 대해 score가 가장 높은 instruction을 최종적으로 선택하게 됩니다. 기본적으로는 사람이 직접 prompt를 보고 어떻게 구성하는 것이 좋을지를 체계적으로 설계하는 것이 더 좋은 성능을 끌어낼 수 있을 것이라고 생각했는데, 분명히 모델마다도 각각이 잘 이해할 수 있는 text의 방향이 다를 수 있음을 이해해볼 수 있었습니다. 모델에게 직접 본인이 생각하는 최적을 판단하도록 하는 아이디어 자체가 참신하다고 느껴졌습니다. 좋은 발표 준비해주셔서 감사드립니다.
Suzie Oh

2023-09-28 23:55

이번 세미나는 ICLR 2023에 억셉된 LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS 논문으로 진행되었습니다. 해당 논문에서는 자동으로 instruction을 생성하고 선택하는 APE라는 방법론을 제안했으며, APE는 (1) llm을 이용하여 instruction candidate을 생성하고, (2) execution accuracy, log probability와 같은 scoring function을 통해 candidate에 점수를 매겨 (3) 점수가 가장 높은 instruction을 최종적으로 선택하는 방식으로 진행됩니다. 최적의 prompt를 사람이 직접 찾는다는 게 시간적으로도 비용적으로도 매우 비효율적이란 점을 생각하면 앞으로도 이와 같이 자동으로 최적의 prompt를 찾아나가는 연구가 계속될 것 같다는 생각이 드는 발표였습니다. 좋은 발표 감사합니다.
Jaehyuk Heo

2023-09-29 13:24

이번 세미나는 "Large Language Models are Human-Level Prompt Engineers" 논문을 중심으로 진행되었습니다. 이 논문은 Large Language Models (LLM)에서의 입력 프롬프트의 중요성을 강조하며, 최적의 프롬프트를 선택하는 방법론을 제안하여 다양한 언어 이해 작업에서 뛰어난 성능을 보여줍니다. 현재 LLM은 대부분의 작업에서 최고 수준의 성능을 제공하며, 프롬프트 역시 LLM과 상호작용하는 핵심 요소로서 필수적입니다. 이 논문에서는 "Automatic Prompt Engineer (APE)" 워크플로우를 사용하여 자동으로 프롬프트를 생성하고 선택하는 방법을 설명합니다. 이 과정에서 Instruction proposal candidate set은 LLM을 사용하여 생성되며, 후속적으로 스코어링 및 필터링 과정을 거쳐 최적의 프롬프트를 도출합니다. 최근 NLP 연구에서는 새로운 LLM 구조보다는 기존 LLM을 튜닝하거나 프롬프트 엔지니어링을 통해 성능을 향상시키는 트렌드가 강조되고 있습니다. 사용자의 기술 및 전문 지식에 따라 LLM의 성능이 크게 변화하기 때문입니다. 좋은 발표 감사합니다.
Hyeongwon Kang

2023-09-29 22:08

이번 세미나는 LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS를 주제로 진행되었습니다. LLM 사용에 있어 최적의 prompt를 사용한 것을 중점으로 다루고 있습니다. 본 논문에서는 자동으로 instruction을 생성하고 선택하는 Automatic Prompt Engineer(APE)를 제안하고 있습니다. LLM을 통해서 forward mode generation, reverse mode generation, customized prompts 방법을 사용해 instruction candidate set을 생성하고 score function으로 execution accuracy와 log probablilty를 사용하여 평가합니다. LLM의 최적의 prompt를 찾기 위해서 또 다시 LLM을 통해 candidate set을 도출하는 것이 인상 깊었습니다. 어떤 score function을 사용함에 따라 결과가 다르게 나올 것 같아 해당 function을 잘 설계하는 것이 중요할 것 같다고 생각되었습니다. 발표자분께서 실제 예시를 보여줌에 따라 이해가 쉬웠던 것 같습니다. 좋은 발표 감사합니다.
Gunho No

2023-09-30 20:54

이번 세미나에서는 "Large Language Models are Human-Level Prompt Engineers"라는 논문을 중심으로 Prompt Engineering에 대한 설명을 해주셨습니다. 본 논문은 대형 언어 모델의 능력에 대한 이해가 제한적이었던 지난해 시점에서 모델 스스로 Prompt를 생성할 수 있는 능력을 강조하고 있습니다. 본 연구에서는 LLM이 다양한 프롬프트를 생성하고, 이를 통해 Prompt Pool을 형성한 후 Downstream Task에서의 성능을 측정하여 최적의 프롬프트를 선택하는 방법을 제안합니다. 그러나 이 과정에서 LLM의 추론 비용이 높다는 문제점을 다루기 위해 Adaptive Filtering Scheme과 같은 효율적인 점수 추정 방법론을 함께 소개하고 있습니다. 논문 내용이 일부 구체적 방법론에 관해서는 개선될 여지가 있을 수 있으나, 프롬프트 구축 방법과 모델 생성 결과를 평가하는 큰 프레임워크를 제안한 측면에서 매우 의미 있는 연구로 생각됩니다. 좋은 발표 감사드립니다.

« [Paper Review] MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting

[Paper Review] Large Language Model based Evaluation (GPTScore, G-Eval) »

목록보기

전체 518

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11551	관리자	2020.03.12	0	11551
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10199	관리자	2020.03.12	0	10199
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11273	관리자	2020.03.12	0	11273
515	[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (2) Hyeongwon Kang \| 2025.07.29 \| 추천 0 \| 조회 102	Hyeongwon Kang	2025.07.29	0	102
514	[Paper Review] Recent Research Trends in Video Anomaly Detection (4) Jaehyuk Heo \| 2025.07.27 \| 추천 0 \| 조회 108	Jaehyuk Heo	2025.07.27	0	108
513	[Paper Review] Introduction to PINN (Some basic concepts and research directions) (9) Hankyeol Kim \| 2025.07.18 \| 추천 0 \| 조회 181	Hankyeol Kim	2025.07.18	0	181
512	[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10) Sieon Park \| 2025.07.14 \| 추천 0 \| 조회 213	Sieon Park	2025.07.14	0	213
511	[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9) Subeen Cha \| 2025.07.10 \| 추천 0 \| 조회 186	Subeen Cha	2025.07.10	0	186
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 369	Jaewon Cheon	2025.06.27	0	369
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 419	Minjeong Ma	2025.06.07	0	419
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 38	Minjeong Ma	2025.06.02	0	38
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 38	Kiyoon Jeong	2025.06.02	0	38
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호