Seminar

BOARD

[Paper Review] Toolformer: Language Models Can Teach Themselves to Use Tools

Paper Review

작성자

Jiyoon_Lee

작성일

2023-07-15 07:33

조회

2740

1. 논문

제목 : Toolformer: Language Models Can Teach Themselves to Use Tools
링크 : 바로가기

2. overview

Motivation: LM이 스스로 external tool을 쓰도록 학습할 수 있을 것
언제, 어떻게, 어떤 API를 사용할지 스스로 결정할 수 있는 모델
Self-supervised 방법으로 다양한 tool의 적절한 사용 방법 학습

3. 발표자료 및 발표영상

발표자료: 하단 첨부
발표영상:

전체 18

Hyungseok Kim

2023-07-19 13:36

금일 세미나 시간에는 연구실의 이지윤 석사과정이 “Toolformer: Language Models Can Teach Themselves to Use Tools” 라는 논문을 주제로 세미나를 진행하였습니다. 해당 논문은 최근 ChatGPT 로 대표되는 Large Language Model (LLM) 의 성공가운데에서도 약점으로 지적 받고 있는 잘못된 정보 기반의 텍스트 생성을 보완하기 위해서 외부 API를 활용한 언어 모델입니다. LLM은 겉으로는 꽤나 높은 완성도의 자연스러운 문장을 생성하는 듯한 모습을 보여줍니다. 실제로 이와 같은 자연스러운 문장을 위해 RLHF (reinforcement learning from human feedback) 와 같은 모듈을 사용하여 인간의 문장을 모사하는 수준까지 도달하였지만, 실제로 잘못된 정보나 사실 기반으로 작성되거나, 정확한 수학적 계산이나 최신 이벤트들에 대한 정보를 기대하기 어려운 한계점이 있었습니다. 해당 논문은 그러한 단점을 외부의 API를 활용하여 보완하고자 한 연구로 LLM으로 하여금 API를 활용하여 문장을 생성할 수 있도록 하는 접근을 시도하였습니다. 이 같은 접근 방식을 위해 해당 논문에서는 API 호출 사용에 대해 사용자들이 작성한 몇 가지 예시를 제공하여 LM이 잠재적인 API호출을 생성하도록 하는 게 아이디어입니다. API call을 통해서 새 LM 데이터 셋을 생성하고 이를 필터링하여 finetuning을 적용하는 것이 해당 논문의 큰 flow입니다. 개인적으로는 외부 API를 사용한다고 했을 때, 무분별한 API call을 통해 문장을 생성하는 것보다 적절한 API를 선정하는 filtering의 역할이 중요하다고 생각되는데 해당 논문에서는 API call이 없거나 response가 없는 경우의 loss와 API call + response를 함께 사용하는 경우의 loss 가 일정 수준 이상 차이를 가지는지 여부를 filtering하여 논문에서 말하는 useful case로 간주하고 문장을 생성하였습니다. 해당 세미나를 통해서 최근 LLM에 대한 트렌드를 알아가서 좋았고, 외부 API를 호출하는 과정에서 연속적인 API호출이 가능할지에 대한 궁금점도 생겼습니다. 예를 들어 “7월 11일에 점심메뉴를 추천해줘!”라는 요청에 API call 등을 통해서 7/11은 초복이라는 정보는 이끌어 낼 수 있지만, 여기서 더 나아가 “초복이니깐 삼계탕은 어때?” 와 같은 연속적인 호출이 가능한 답변을 생성할 수 있지는 않을 것 같다고 판단됩니다. 실제로 논문의 프로세스에 활용되는 API call 및 filtering의 과정들이 독립적으로 수행되는 점에서 이런 부분이 한계점으로 생각해보았습니다. 재미있는 세미나 시간을 채워준 이지윤 석사과정에게 감사의 인사 전하며 이만 후기를 마치도록 하겠습니다. 감사합니다.
SangMin Lee

2023-07-24 00:28

본 세미나는 이지윤 발표자님의 "Toolformer: Language Models Can Teach Themselves to Use Tools"이라는 논문을 바탕으로 진행되었습니다. 해당 논문에서 제안하는 방법론은 Toolformer로 LM이 스스로 external tool을 쓰도록 학습하여, API 사용여부를 스스로 결정할 수 있도록 하는 방법론입니다. 여기서 제안하고 있는 API는 Clinet와 Database 간 API call을 말하며, 기존 방법론들은 Human supervision에 의존하고 Few-shot prompt & tool을 고정하여 사용한다는 점을 문제점으로 꼽고 있습니다. 따라서 본 논문에서 제시하고 있는 기여점으로는 Self-supervised 방식으로 tool의 사용법을 학습하여, LM 자체의 generality 성능을 감소 시키지 않고 모델 스스로 tool 사용에 대한 when과 how를 결정하도록 하는 점을 기여점으로 제시하고 있습니다. 특히 가장 critical하다고 생각한 접근법은 token sequence를 바탕으로 다음 token이 예측될 확률을 threshold 기준으로 비교하여 API를 호출하는 Sample API calls 부분이었습니다. 2번째로 중요하다고 생각한 부분은 Filter API Calls 부분이며, API call과 Response를 함께 사용하여 모델 학습 능력을 향상시키는 점이었습니다. 해당 2가지 핵심 접근법을 바탕으로 Supervision 없이 tool use 사용법을 학습하고, API Call을 모델 스스로 결정할 수 있다는 점이 흥미로운 부분이라고 생각하였습니다. 특히 실험 결과에서 다양한 task에서 높은 성능 향상을 가져와, zero-shot performance가 GPT3을 능가했다는 점이 해당 방법론의 신뢰도를 높여주고 있다고 생각했습니다. 하지만 개인적으로 든 생각은 API Call 및 Refine 하는 연구가 많은데, 이는 Inference 시 n번 혹은 그 이상의 횟수를 바탕으로 비용적인 부분이 한계라고 생각하였습니다. 따라서 횟수를 줄이는 연구들이 필수적으로 필요하다고 생각하였습니다. 마지막으로 흥미로운 주제를 바탕으로 좋은 발표 준비해주셔서 감사합니다.
SeungHun Han

2023-07-24 13:37

이번 세미나는 "Toolformer: Language Models Can Teach Themselves to Use Tools" 논문을 주제로 진행되었습니다. 해당 논문은 LM의 성능을 향상시키기 위해 다양한 external tool을 언제, 어떻게 사용할지 결정하는 모델인 Toolformer를 제안합니다. Toolformer는 Self-supervised 방식으로 학습되었으며, 5가지의 external tool을 활용한 Zero-shot이 가장 큰 특징입니다. LM이 다음 토큰을 생성할 때 API를 활용하여 외부 정보를 load할지 결정하는 decision making 과정을 위해 loss function에는 API가 호출될 때 loss와 호출되지 않았을때의 loss의 차이를 활용합니다. 실험결과에 따르면, API call을 하였을 때 LM이 정확한 정보를 담은 문장을 생성할 수 있습니다. 일반적인 연구자가 LM을 fine-tuning, 혹은 pre-train하기 어려운 현실에서 최근에는 LM의 reliability를 개선하기 위한 시도가 많이 이어지는 것 같습니다. 풍부한 정보를 담은 데이터 베이스의 최신 정보를 활용할 수 있다면 LM이 생성하는 응답에 대해 신뢰를 조금이나마 더 할 수 있지 않을까 생각했습니다. 친절한 설명 덕분에 좋은 내용을 잘 이해할 수 있었습니다. 좋은 발표 감사합니다.
Doyoon Kim

2023-07-25 11:16

이번 세미나는 굉장히 신선한 주제가 소개되었습니다. 언어모델과 API의 결합을 시도함에 있어 언어모델이 스스로 언제 API를 활용할지를 self-supervised 방식으로 학습하는 방안에 관한 연구가 소개되었습니다. 메타(Meta)에서 발표된 논문이다보니 많은 사람들이 관심을 가지지 않았나 생각됩니다. 물론 기존에 API를 활용하는 연구가 많이 발표되어왔습니다. 언어모델만 활용함에 있어서는 새로운 정보 업데이트가 어렵다는 점, 연산 능력의 한계가 있다는 점이 이슈가 되고 API를 활용하는데 있어서는 불가피한 human supervision이 포함되어야 하는 점이 특징입니다. 이를 모두 극복하고자하는 방법론이 바로 Toolformer 입니다. 본 논문에서는 총 5가지의 과업(QA, 기계번역, 날짜 확인, 계산, 위키피디아 검색 등)을 진행하였고 API를 실행하는 prompt를 정해서 annotation을 이용하였습니다. 문장 내에서 API가 등장할 위치와 API calls 라 하여 API를 실행하는 실제 텍스트를 여러 가지를 준비하여 모든 경우에 대해 해당 API call이 유의미한지를 확인하기 위한 특정 loss를 통해 모델이 학습됩니다. 쉽게 정리하면, 과업에 따른 API의 종류는 정해져 있고, 문장 내에서 어디에서 API를 어떤 문구를 이용하여 API를 활용할지를 정하는 훈련을 진행한다고 볼 수 있습니다. Question Answering에서의 API calls는 발표자 분께서 보여주신 예시를 통해 이해할 수 있었었으나, 다른 과업에서는 API calls를 어떻게 구성하는지가 궁금합니다. 지금까지 소개되었던 여러 연구분야 중 가장 신선하고 특이한 주제였던 것 같습니다. 허나 이것이 과연 연구의 가치가 얼마나 될지는 잘 모르겠습니다. 어쩌면 제한된 정보 및 지식을 이용하는 것이 아니라 이와 같이 API를 적극 활용하는 여러 연구가 계속해서 등장하지 않을까 그리고 그것이 향후 few decades동안의 지향점이 되지 않을까 생각됩니다. 흥미로운 발표 감사합니다. 첫 발표 고생많았습니다.
Gunho No

2023-07-27 11:29

이번 세미나에서는 Toolformer: Language Models Can Teach Themselves to Use Tools 논문을 소개해 주셨습니다. 여기서 Tool은 API를 의미하는 것으로, LM이 스스로 API를 선택하고 활용할 수 있도록 한 방법론입니다. 특히 새로운 정보, 시간에 대한 접근, 수학 연산 능력 등 LM이 잘 수행하지 못하는 특정한 task가 요구된다면 스스로 적절한 API를 활용하기 위한 API Call을 생성하는 모델입니다. 기존에도 API 활용을 위한 연구들은 존재했으나 이번 논문에서는 Self-supervised 학습으로 사람의 개입이 최소화되었다는 것이 특징입니다. 얼마전 부터 초거대 언어모델이 상당한 일반화 성능을 달성하며 그러한 초거대 모델을 어떻게 잘 활용할지가 주요 연구 트랜드가 되었습니다. 일반적으로는 프롬프트 튜닝 등을 통해 모델이 특정한 task를 수행할 수 있도록 유도하였으나, 이번 방법론은 일반적인 모델의 성능은 그대로 유지하며 모델이 잘 못하는 특정한 task 몇 가지에 대해서만 외부 API를 활용하도록 하여 실제 서비스를 생각 한다면 보다 현실적인 접근인 것 같습니다. 좋은 발표 감사합니다.
SeongHee Hong

2023-07-28 14:51

이번 세미나에서는 “Toolformer: Language Models can Teach Themselves to Use Tools”라는 연구에 대해 소개해주셨습니다. 해당 연구에서 제안하는 방법론은 다양한 외부 Tool들을 언제 어떻게 사용할지 LM 스스로 결정할 수 있도록 학습시킵니다. 외부 Tool을 LM에 활용하는 방법론은 이전에도 몇 가지 선행된 바 있지만, 각 방법론은 Python Interpreter, Calculator 등 특정한 API만을 사용해 하나의 Downstream Task에만 적용이 가능하거나 Zero-shot이 불가능하다는 등의 한계점이 있었습니다. Toolformer는 Self-supervised 방식으로 다양한 Tool을 언제, 어떻게 사용할지 학습을 해 이러한 한계점을 극복했습니다. GPT-J를 Base Model로 사용한 Toolformer는 실험 결과, QA, Relation Extraction Task에서 Base Model인 GPT-J의 두 배 성능을 보인 점이 인상적이었습니다. 또한 해당 Task에서 GPT-3 175B보다도 높은 성능을 보였습니다. 어떤 API를 Call할지와 언제 할지를 LM이 학습하도록 한다는 방법론 자체가 매우 신선했습니다. 첫 세미나임에도 불구하고 깔끔한 전달력과 적절한 예시 첨부 덕에 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다.
Jaehee Kim

2023-07-28 18:29

금일 세미나는 "Toolformer: Language Models Can Teach Themselves to Use Tools"로서 Large Language Model에게 ICL을 통해 API 활용을 학습하는 논문이었습니다. API는 기존에 구축된 시스템으로서 다양한 태스크에서 유용한 정보 및 도구로서 활용될 수 있습니다. LLM이 다양한 태스크에서 높은 성능을 보이기는 하지만, 이러한 API를 문맥에 따라 자연스럽게 활용할 수 있다면 더욱 높은 활용도를 가질 수 있습니다. 이때, 중요한 점은 어느 시점에 어떤 API를 활용할 지 모델이 스스로 결정하는 것이 중요합니다. 해당 논문에서는 API Call에 대한 데이터셋 구축을 위해 직접 Loss를 활용하여 API를 활용할 경우 Loss가 작아지는 데이터셋을 직접 구축하고, 해당 데이터 Finetuning을 진행합니다. 이를 통해 학습된 Toolformer는 다양한 태스크에서 기존의 여러가지 LLM보다 좋은 성능을 보이는 모습을 보이고 있습니다. 특히, 데이터셋의 크기가 크지 않은 상황에서, 다양한 API에 대해 모델이 학습할 수 있다는 점이 매우 고무적이라 생각합니다. 향후 더 많은 API가 점진적으로 추가되는 상황에서 Finetuning하지 않고 모델이 활용하도록 유도할 수 있는 방법론이 개발된다면 LLM의 안정성과 활용성이 더욱 증대될 수 있을 것으로 보입니다. 복잡할 수 있는 내용을 쉽게 전달해주셔서 감사합니다.
Kyoungchan Park

2023-07-28 20:07

이번 세미나에서는 Toolformer라는 방법론에 대해 소개해주셨습니다. Toolformer는 LLM이 보다 정확한 정보를 제공하도록 하기 위해 외부 tool 즉 API를 활용하도록 학습하는 방법론을 제안했습니다. LLM의 등장으로 전문가 수준의 정확한 정보를 제공하는 언어 모델을 기대했지만, 아직 많은 한계점이 존재합니다. 이런 관점에서 Toolformer는 LLM이 가지는 약점을 외부 API를 활용하는 방식으로 극복하고자 하였는데, 적절한 순간에 외부 API의 도움을 받아 좀 더 양질의 output을 산출하도록 하는 것이 핵심이었습니다. 따라서 적절한 순간에 적절하게 API를 활용하도록 LLM을 finetunning하는 것이 중요한데, Toolformer에서는 처음으로 이러한 학습이 가능한 framework를 제안했습니다. 새로운 LLM의 활용 방법론과 이를 위한 학습 framework를 제공했다는 점에서 굉장히 신선한 연구라고 생각했고, 그 과정을 세미나를 통해 편하게 이해할 수 있어 좋았습니다. 발표 감사드립니다.
Jaehyuk Heo

2023-07-29 00:19

이번 세미나에서는 "Toolformer: Language Models can Teach Themselves to Use Tools"라는 논문을 소개하였습니다. 이 논문은 Large Language Model (LLM)의 한계를 보완하기 위해 외부 API를 활용하는 방법론을 제시합니다. 논문의 핵심 아이디어는 LLM이 외부 도구(API)를 활용하여 문장을 생성하고 사용하는 능력을 스스로 학습할 수 있도록 하는 것입니다. 이전의 몇 가지 선행 연구들은 특정한 API만을 사용해 하나의 Downstream Task에만 적용하거나 Zero-shot 적용이 어려운 한계점이 있었습니다. 하지만 Toolformer는 Self-supervised 방식으로 다양한 API를 언제, 어떻게 사용할지 학습하여 이러한 한계를 극복했습니다. 논문에서는 API 호출 사용에 대해 사용자들이 작성한 예시를 활용하여 LM이 잠재적인 API 호출을 생성하도록 하는 방법을 제시합니다. API를 통해 새로운 데이터 셋을 생성하고 필터링하여 finetuning을 적용하는 프로세스를 거치며, 유용한 문장을 생성하도록 학습합니다. 세미나에서는 Toolformer를 GPT-J를 Base Model로 사용하여 실험한 결과를 소개하였는데, QA 및 Relation Extraction Task에서 GPT-J의 두 배 이상의 성능 향상을 보였고, GPT-3 175B보다도 우수한 성능을 보여줬습니다. 논문의 방법론은 LM의 성능 향상을 위한 신선한 시도로 평가되며, API 호출을 통해 LM이 외부 정보를 활용하는 것이 정확한 문장 생성에 도움이 된다는 점이 강조되었습니다. 또한, API 선택과 호출 시점에 대한 decision making 과정을 loss function을 통해 구현하는 것이 효과적으로 설명되었습니다. 세미나는 발표자의 친절한 설명과 적절한 예시 덕분에 내용을 이해하기 쉬웠으며, 최근 LLM에 대한 트렌드와 외부 API 호출에 대한 연속적인 호출 가능성에 대한 궁금점을 불러일으키는 좋은 발표였습니다. 감사합니다.
Seonggye Lee

2023-07-29 11:38

본 세미나에서는 "Toolformer: Language Models Can Teach Themselves to Use Tools" 라는 제목의 논문에 대한 리뷰를 진행하였습니다. Toolforemer는 Language model이 스스로 external tool을 쓸 수 있도록 이를 학습을 통해 제안한 모델입니다. 결국 언제, 어떻게, 어떤 API를 호출할지에 대한 문제로 정의하고 이를 해결합니다. 본 논문에서는 이를 self-supervised 방식을 통해 학습하였습니다. LM의 특성상 새로운 정보에 대한 update가 불가한 경우가 많은데 이를 API를 통해 보완하고자하는 목적이었습니다. 본 논문에서는 5가지의 Tool (QA, Wikipedia search, Calculator, MT, Calendar)를 사용하였습니다. Input text에 대해 API call의 시작 지점을 k개 선택하고 각 시작 지점 마다 최대 m개의 API call을 생성합니다. 최종적으로 각 case 마다의 성능을 통해 API call 최적화를 진행합니다. 이를 통해 각 downstream task에서 우수한 성능을 기록함을 확인할 수 있었습니다. LM의 한계를 API call을 통해 잘 보완하였고, 이에 대한 최적화가 인상적이었습니다. 연구 아이디어 자체는 굉장히 간단했지만, 꼭 필요한 연구였다는 생각이 들었습니다. 좋은 발표 감사합니다.
JoongHoon Kim

2023-07-29 12:11

이번 세미나에서는 Toolformer: Language Models Can Teach Themselves to Use Tools 라는 논문을 다루었습니다. Toolformer는 외부 tool을 api를 통해 사용함으로써 LLM의 근본적인 한계인 새로운 지식 update 및 연산 능력 등을 해결하고자 한 모델입니다. 기존 api를 활용하는 방법론들은 대부분 api를 효과적으로 호출하는 방법을 고려하는데 toolformer는 이를 api 호출을 직접 학습하는 방식으로 수행한 것이 참신했습니다. toolformer는 5가지 tool에 대한 api 호출 샘플을 augmentation하여 모델 학습을 수행합니다. 먼저 prompting을 통해 api 호출의 위치를 sampling하고 api 호출의 결과를 도출합니다. 다음으로 api call이 실제로 모델 학습에 도움이 되는 샘플만을 필터링하여 데이터를 구성하고 모델 학습을 수행합니다. 이렇게 학습된 toolformer는 외부 api를 활용하지 못하는 모델에 비해 성능이 비약적으로 향상되는 것을 실험에서 확인할 수 있었습니다. 개인적으로 논문의 아이디어는 굉장히 참신하다고 생각했지만 실험 세팅이나 코드가 자세히 공개되어 있지 않아서 아쉬웠던 것 같습니다. 좋은 발표 감사합니다.
Sunwoo Kim

2023-07-29 13:26

이번 세미나에서는 Toolformer: Language Models Can Teach Themselves to Use Tools 논문을 다루어 주셨습니다. Toolformer는 언제, 어떻게, 어떤 API를 사용할지 스스로 결정하는 모델이며, self-supervised 방법으로 다양한 tool을 이용하여 어떻게 적절하게 사용하면 좋을지를 학습하게 되며, 구체적으로는 모델 스스로 tool 사용에 대한 when과 how를 결정하게 됩니다. 본 발표에 앞서 세미나에서 많이 다루어지지 않은 API call 내용을 설명해주셔서 추후 발표를 이해하는데 많은 도움이 되었습니다. 처음에는 LM 스스로 데이터셋의 잠재적 API call에 대해 annotation을 진행하고, Potential API call 중 cross entropy loss를 바탕으로 유용성을 판단합니다. 마지막으로는 최종 annotation을 사용하여 LM을 fine-tuning합니다. Tool로는 총 5가지를 이용하게 되며, QA, Wikipedia Search, Calculator, Machine Translation System, Calendar가 포함되어 있는데, LM과 일반적인 계산 tool이 함께 사용된다는 점이 인상적이었습니다 . 전체적인 과정은 입력으로 들어온 텍스트에 대해 API call 시작지점 k개를 선택하고, API call을 생성하고 실행하게 됩니다. 마지막으로는 loss를 활용하고, 유용한 API call을 필터링하며 최종적인 데이터를 구성하게 됩니다. 실험 부분에서는 supervision 없이 tool usability를 학습할 수 있는지, API call의 when, how, which를 스스로 결정할 수 있는지를 확인하고자 하였습니다. 성능 부분에 있어 우수한 zero-shot performance를 보였으며, 각 task별 성능 평가. language modeling ability에 미치는 영향 등을 파악할 수 있었습니다. 좋은 발표 감사합니다!
Woojun_Lee

2023-07-29 14:09

이번 세미나에서는 Toolformer: Language Models Can Teach Themselves to Use Tools 논문을 주제로 진행되었습니다. 이 논문에서는 LLM 기반의 언어 모델의 한계를 외부 API를 통해 보완하려는 방법론을 제시하였습니다. Toolformer는 Self-supervised 학습 방식을 사용하여 언어 모델이 언제, 어떻게 외부 도구(API)를 사용하는지 스스로 학습할 수 있는 프레임워크를 구축하였습니다. 본 연구의 주요 목표는 LLM의 한계점을 외부 API 호출을 통해 보완하여 양질의 출력을 산출하는 것이었습니다. 실험에서 Toolformer는 다양한 downstream 작업에서 외부 API가 활용되지 않는 기존 언어 모델과 비교하여 상당한 성능 향상을 보였습니다. 이를 통해 외부 정보를 활용하여 언어 모델의 제한을 극복할 수 있는 가능성이 제시되었습니다. 세미나 발표자의 친절한 설명과 구체적인 예시 덕분에 내용을 쉽게 이해할 수 있었습니다. 또한, 연구의 참신한 아이디어와 실용성이 돋보이는 점이 인상적이었습니다. 좋은 발표 감사합니다.
Saeran Park

2023-07-29 14:11

해당 세미나는 ‘이번 세미나에서는 ‘Toolformer: Language Models Can Teach Themselves to Use Tools’ 으로 진행되었습니다. ‘Lamda’ 모델에서 external tool을 활용하여 답변 생성의 정확도를 높였습니다. 모델이 가진 지식만으로는 수학적 계산이 어려우며, 과거에 학습한 모델인 경우 현재의 정보를 활용할 수 없다는 점에서 외부의 시스템과 연결하여 더 정확도를 높일 수 있었습니다. 해당 논문은 이러한 external tool을 api로 불러와 정확한 답을 구하고 이것을 문장으로 generation하고 있습니다. api를 불러오는 api call의 구간을 답변 생성에 포함하여 api call이 발생하는 구간에서는 api를 불러오고 이어서 답변을 생성하는 형태입니다. 따라서 모델이 스스로 api를 불러올 수 있는 구조가 되었습니다. 스스로 api를 불러오는 모델을 만들기 위해 annotation과 filtering과정을 거쳐 fine-tuning을 한 모델이 toolformer입니다. toolformer는 self-supervised로 tool의 사용법을 학습하고, 언제, 어떻게 tool을 사용할지에 대해서 결정할 수 있습니다. Prompt와 human-written examples를 제공하면 모델은 스스로 데이터셋의 potential api call에 대해 annotation을 하고 cross entropy loss를 통해 유용성을 판단합니다. 최종 annotation을 사용하여 모델을 파인튜닝 하는 과정까지 해당 모델에서 제안하는 방법입니다. 개인적으로 해당 논문을 작성한 저자분께서는 매번 창의적이며 흥미로운 연구를 한다고 생각했습니다. 언어모델을 사용하여 창의적인 프레임워크 개발을 연구하고자 한다면 해당 저자를 팔로우업하는 것도 좋다고 생각합니다. 좋은 발표 감사합니다.
Jinwoo Park

2023-07-29 16:21

이번 세미나는 Toolformer: Language Models Can Teach Themselves to Use Tools 논문을 바탕으로 진행되었습니다. 해당 논문에서는 기존 Language Model들이 새로운 정보가 들어오거나, 어떠한 시간에 대한 접근, 수학 연산 능력 등 특정 task에 대해서는 약한 모습을 보인다는 단점을 해결하고자 Language Model이 스스로 External tool을 사용하도록 학습한 Toolformer를 제시하고 있습니다. 여기서 말하는 External tool은 API로, Model은 결국 어떠한 특정 task가 제시되었을 때, 스스로 적절한 외부 API를 활용하고자 API call을 생성하도록 self-supervised 방식으로 학습하는 모습을 보이고 있습니다. 전체적인 모델의 학습 과정은 먼저 Input으로 문장이 들어왔을 경우, 문장 내에서 API가 호출될 API Call 시작 지점을 샘플링하고, API Call을 생성하고 실행하여 API 호출의 결과를 도출하게 됩니다. 최종적으로는 실제로 모델 학습에 도움이 되는 API Call만을 필터링함으로써 데이터를 구성하게 됩니다. 하나의 모델에서 해결하기 어려운 문제들을 해결하고자, 문제들을 세분함으로써 해결하고자 하였고, 이 과정에서 외부 API를 이용하는 점이 인상 깊었습니다. 좋은 발표 정말 감사드립니다.
Hun Im

2023-07-29 20:24

이번 세미나에서는 언어 모델과 외부 API Tool을 결합하기 위한 방법론인 Toolformer에 대해 다뤄주셨습니다. 해당 방법론은 프롬프트를 기반으로 하여 언어 모델 스스로가 외부 API 가 필요한 위치, 대상, 결과의 사용 유무를 결정하여 API를 활용할 수 있도록 하는 방법론입니다. 외부의 개입 없이 모델 스스로가 loss 를 활용해 API와 관련된 것들을 결정하고 반영한다는 점이 신기하고 인상 깊었습니다. 다만 API하나를 호출하기 위해 상당히 많은 연산량이 요구되지는 않나 라는 생각이 들었지만, 이러한 외부 API Tool을 활용하면 LM의 자유도 또는 기능성이 훨씬 개선이 될 것이라 생각됩니다. 또한 해당 논문을 통해 최근 NLP의 트렌드는 LM의 개발 보다는 LM의 활용이라는 키워드로 굳혀가는 구나 라는 생각이 들었습니다. 처음 발표임에도 긴장하지 않고 멋진 발표 감사합니다.!!
Suzie Oh

2023-07-30 22:08

이번 세미나는 META에서 최근에 나온 Toolformer: Language Models Can Teach Themselves to Use Tools 논문으로 진행되었습니다. 언어 모델이 가지는 새로운 정보에 대한 답변이 어렵다는 한계점이나 수학 연산 능력이 떨어지는 한계점을 개선하기 위해 최근에 API를 활용하는 연구가 진행되고 있는데, Toolformer의 경우 기존 연구들이 가지는 한계점을 보완하여 API를 언제, 어떻게 호출할지를 Self-supervised 방식으로 학습하는 방법을 제안했습니다. 최근에 API를 활용하는 연구가 늘어나는 추세인 것 같은데 추론 과정이 실제 코드에선 어떻게 구성되는지와 Zero-shot Table QA의 경우에도 많은 연구에서 언급되는 한계점 중 하나가 'numerical reasoning'이 부족하다는 것인데 해당 분야에서도 Tool을 활용하는 연구가 추후에 나올지 궁금해지는 발표였습니다. 첫 세미나였음에도 흥미로운 논문과 좋은 발표 준비해주셔서 감사합니다!
Jungho Lee

2023-07-31 19:59

이번 세미나는 Toolformer: Language Models Can Teach Themselves to Use Tools 논문을 주제로 진행되었습니다. 해당 방법론에서는 언어 모델의 한계를 외부 API를 통해 보완하려는 방법론을 제시하였습니다. API 를 사용하는 용도는 언제, 어떻게 API를 사용할지 스스로 결정하는 모델이며, 어떻게 적절하게 사용하면 좋을지를 학습하게 되며, 구체적으로는 모델 스스로 tool 사용에 대한 when과 how를 결정하게 됩니다. API 를 사용하는 것이 상당히 새로웠고 최적화하기 위한 framework를 제공했다는 점과 Update 자체가 쉽지 않을텐데 라는 생각이 들었는데, 우수한 zero-shot 성능까지 보여주는 실험결과를 보고 놀라웠습니다. 좋은발표 감사합니다.

« [Paper Review] Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

[Paper Review] Task-Aware Variational Adversarial Active Learning »

목록보기

전체 501

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10287	관리자	2020.03.12	0	10287
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 8901	관리자	2020.03.12	0	8901
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10015	관리자	2020.03.12	0	10015
498	[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 18	Sunghun Lim	2025.04.24	0	18
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 42	Suyeon Shin	2025.04.21	0	42
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 108	Woongchan Nam	2025.04.16	0	108
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 199	Kiyoon Jeong	2025.04.16	0	199
494	[Paper Review] Reasoning over Time Series with LLMs (13) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 281	Hyeongwon Kang	2025.04.09	0	281
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (16) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 271	Jaehyuk Heo	2025.04.02	0	271
492	[Paper Review] Reasoning and Reinforcement Learning for LLM (15) Jaehee Kim \| 2025.04.02 \| 추천 0 \| 조회 268	Jaehee Kim	2025.04.02	0	268
491	[Paper Review] LLM based Recommender Systems : EAGER-LLM (19) Jungho Lee \| 2025.04.02 \| 추천 0 \| 조회 251	Jungho Lee	2025.04.02	0	251
490	[Paper Review] Data-driven discovery of coordinates and governing equations (18) Hankyeol Kim \| 2025.03.25 \| 추천 0 \| 조회 242	Hankyeol Kim	2025.03.25	0	242
489	[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15) Sieon Park \| 2025.03.19 \| 추천 0 \| 조회 352	Sieon Park	2025.03.19	0	352

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호