번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10287
|
관리자 | 2020.03.12 | 0 | 10287 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 8899
|
관리자 | 2020.03.12 | 0 | 8899 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10012
|
관리자 | 2020.03.12 | 0 | 10012 |
498 |
New [Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 7
|
Sunghun Lim | 2025.04.24 | 0 | 7 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 39
|
Suyeon Shin | 2025.04.21 | 0 | 39 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 106
|
Woongchan Nam | 2025.04.16 | 0 | 106 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 194
|
Kiyoon Jeong | 2025.04.16 | 0 | 194 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 271
|
Hyeongwon Kang | 2025.04.09 | 0 | 271 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 267
|
Jaehyuk Heo | 2025.04.02 | 0 | 267 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 260
|
Jaehee Kim | 2025.04.02 | 0 | 260 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 244
|
Jungho Lee | 2025.04.02 | 0 | 244 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 241
|
Hankyeol Kim | 2025.03.25 | 0 | 241 |
489 |
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park
|
2025.03.19
|
추천 0
|
조회 348
|
Sieon Park | 2025.03.19 | 0 | 348 |
이번 세미나에서는 Llama2 언어모델이 소개되었습니다. 이제는 언어모델의 개념이 이전 BERT나 GPT, T5 등의 개념과는 차원이 다른 모습인 것 같습니다. 기본적으로 챗봇 모델과 같이 사람과의 자연스러운 대화를 충분히 할 수 있는 것이 주 목적이 되어가는 모습입니다. 이에 모델 학습 시에도 챗봇 환경에 맞출 수 있는 방식을 채택하는데, 대표적인 방법으로 Supervised Fine-Tuning(SFT)과 Reinforcement Learning with Human Feedback(RLHF)이 있습니다. 챗봇에서 진행되는 대화는 비교적 의도와 목적이 분명하기에 이에 적합한 데이터셋이 필요하고 강화학습의 개념을 적용한 reward model을 통해 대화 데이터셋의 품질을 여러가지 항목에 맞게, 가령 필요한 정보를 잘 생성했는지, 요청에 적합한지, 문제될 내용이 생성되지는 않았는지 등에 따라 점수를 부여하고 이를 바탕으로 학습이 이루어집니다. Llama2도 유사한 과정을 거치는데 Iterative Finetuning이라는 단계를 도입한 것이 큰 특징입니다. 그중에서도 Rejection sampling이라 하여 언어모델(aligned model)이 다수의 response를 생성하고 그중에서 reward score가 가장 높은 response를 채택하는 과정을 거칩니다. 이제는 단순한 기술 적용을 넘어 인공지능이 문화와 사회를 배우는 차원에서의 연구가 이루어지는 것 같습니다. 물론 이러한 움직임이 예전부터 지속되어왔고 특히 언어모델의 편향성(bias)에 대한 이슈가 늘 제기되어 왔지만, 앞으로는 이를 넘어선 말 그대로 인문학이 중심이 되어 연구방향이 정해지는 모습이 되지 않을까 생각됩니다. 좋은 발표 감사합니다.
이번 세미나는 "Llama 2: Open Foundation and Fine-Tuned Chat Models" 논문에 대해서 소개해주셨습니다. 기존 Llama에 이어 Llama2에서는 기존 RLHF 방법과 더불어 더 긴 입력 데이터와 더 많은 데이터로 학습을 진행하였습니다. 학습 시 사용하는 데이터에서는 여러 문제가 되는 유해 데이터를 별도로 제외하지 않았다는 게 인상깊었습니다. 필터링 과정에서 pretrain corpus의 품질이 하락할 수 있다는 점이 그 이유입니다. Supervised Fine-Tuning(SFT)에서는 Helpfulness와 Safety를 고려하여 데이터를 수집하였습니다. 세미나를 통해 ghost attention에 대한 설명을 들을 수 있었는데 user에 의한 초기 입력 내용을 지속적으로 반영할 수 있는 방법으로서 이러한 방법으로 multi-turn이 가능한 챗봇 모델을 구성할 수 있구나라는 것을 배웠습니다. Llama2에 대한 설명을 통해 pretrained data 및 SFT를 위해 데이터를 구성/수집하는 방법과 RLHF에 대한 내용 그리고 ghost attention 까지 전반적인 최근 LLM 학습 과정을 엿볼 수 있어서 좋았습니다. 좋은 발표 감사합니다.
금일 세미나 시간에는 Large Language Model 관련하여 “Llama 2: Open Foundation and Fine-Tuned Chat” 논문을 주제로 김재희 석박통합과정이 진행하였습니다. 해당 논문은 650억 파라미터의 기존 Llama 1 모델의 후속연구로 해당 모델은 700억개의 파라미터 수준의 사전학습을 통해 SOTA의 성능을 기록하였다고 합니다. 해당 연구는 특히 dialogue application에 특화하여 모델을 디자인하였으며, 기존에 LLM에서 문제시기 되었던 usefulness과 safety 측면에서 human evaluation을 거친 결과 크게 개선된 모습을 보여줍니다. 전반적인 파이프라인에서 기존 연구와 달라진 점은 reject sampling 과정인데 reward model을 활용하여 Supervised&Fine-Tuning 데이터셋을 구성하고 필터링을 수행한 점입니다. 최근 LLM의 유용성과 안정성 측면에서 많은 이슈가 있는 와중에 해당 연구진들은 이러한 reward model을 반복적으로 수행하여 안정적인 SFT 데이터셋 구축할 수 있었고, 예측 정확도 측면에서 많은 개선을 보여주고 있다고 실험결과로 제시하였습니다. 또한, 흥미로웠던 점은 ghost attention 개념으로 대화시스템 초반부에 instruction이 주어졌을 때, 이를 지속적으로 생성과정에 반영되는 것을 attention map을 통해서 확인할 수 있던 점이 인상적이었습니다. 해당 논문이 복잡한 수식과 새로운 개념의 논문은 아니지만, 발표자가 성의껏 실험 결과에 대한 해석과 개념을 장표로 잘 표현하였기에 세미나를 참관하는 입장에서 부담없이 내용을 이해할 수 있었습니다. 이러한 점은 많이 보고 배워 나갈 점이라고 생각합니다. 좋은 세미나 시간을 채워준 발표자에게 감사의 인사 전하며 이만 후기 마치도록 하겠습니다.
본 세미나는 김재희 발표자님께서 "Llama 2: Open Foundation and Fine-Tuned Chat Models"라는 논문을 바탕으로 진행해주셨습니다. Llama2는 기존 Llama1의 문제점을 보완하여 나온 메소드인데, 이는 Rejection sampling 부분이 다른 점이라고 강조하고 있습니다. 따라서 SFT나 RLHF보다 Rejection sampling을 집중적으로 보았습니다. 이는 기존 RLHF 훈련 파이프라인이 선형적 진행 방식을 따라 SFT와 Reward model간 상호 보완이 안 되는 문제점을 가지고 있어, 이를 SFT 훈련과 Reward model 훈련을 반복적으로 진행하는 Iterative Fine-tuning 프레임워크를 제안하였습니다. 이를 통해 모델 생성의 quality가 높아지고 aligned model이 우연히 생성한 문장을 지속적으로 생성하도록 SFT 학습을 진행한다는 효과를 야기할 수 있다고 생각했습니다. 즉 Rejection sampling은 aligned model에 지속적으로 fine-tuning을 하기 위한 Gold response를 직접 생성하는 방법으로 규정할 수 있습니다. 마지막으로 해당 논문이 매우 최근에 나오고 핫한 논문이어서 정말 흥미롭게 보았고, 논문에서 쓰이는 개념들을 직관적이고 컴팩트하게 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 Llama 2: Open Foundation and Fine-Tuned Chat Models 라는 논문을 다루었습니다. 지난 세미나에서 다루었던 language model과 Llama에 이어 그 후속 연구인 Llama 2에 대한 내용을 다루었습니다. Llama 2에서는 Llama와 마찬가지로 공개된 pretrain corpus를 활용하여 sft로 사전학습을 수행하는 기법과 자체 구축한 reward dataset을 통해 RLHF를 추가적으로 수행하였습니다. 이 논문에서 가장 특징적이었던 것은 학습 데이터를 helpfulness와 safety의 두 가지 측면으로 구축하여 학습에 사용하였다는 점입니다. 이는 데이터셋의 품질이 중요하다는 것을 강조하고 있는 것으로 생각되었습니다. 또한 iterative fine-tuning을 통해 SFT와 RLHF를 동시에 향상시킨 점이 인상적이었습니다. 하지만 실험에서 GPT-4와 같은 모델과는 성능을 비교하지 않고, 공개된 open-source LLM들과의 성능을 비교를 한 것이 아쉬웠습니다. 최신 NLP 분야의 LLM 연구 동향을 파악할 수 있어 유익한 시간이었던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나는 Llama 2: Open Foundation and Fine-Tuned Chat Models 라는 논문을 주제로 진행되었습니다. Llama 2 모델의 핵심 개념과 그 차별성을 세세하게 듣게 되어 무척 유익한 시간이었습니다. 특히, Llama 1과의 주요 차이점과 개선된 학습 메커니즘에 대해 자세히 설명해주신 부분은 매우 인상적이었습니다. 이러한 최신 언어 모델의 내부 메커니즘을 이해하는 것은 실제 애플리케이션에 적용할 때 큰 도움이 될 것 같습니다. 논문에서 제시된 Rejection sampling과 Iterative Fine-tuning 같은 새로운 개념들을 쉽게 설명해주신 덕분에 더 깊은 이해를 할 수 있었습니다. Ghost attention의 중요성과 그 효과도 잘 이해할 수 있었고, 이를 통해 multi-turn 대화 모델의 효율성에 대해 새로운 인사이트를 얻을 수 있었습니다. 그 외에도 Llama 2가 다루고 있는 helpfulness와 safety에 대한 내용도 흥미로웠습니다. 이러한 세부적인 내용들을 알게 된 덕분에 논문의 연구 방향과 그 중요성을 더욱 잘 이해할 수 있었습니다. 좋은 발표였습니다 감사합니다.
이번 세미나에서는 “Llama 2: Open Foundation and Fine-Tuned Chat Models”라는 연구에 대해 소개해 주셨습니다. 해당 논문은 arXiv에 등재된 지 아직 한 달이 지나지 않았지만 이미 인용 횟수가 21회에 이른 논문입니다. 올해 초 Llama의 공개는 Alpaca, Vicuna를 비롯한 Open-source LLM 연구 흐름에 있어서 매우 중요한 역할을 했습니다. Llama2 논문에서는 SFT Train과 Reward Model Train을 반복적으로 진행하는 Iterative Fine-Tuning 프레임 워크를 제안했습니다. 이때 챗봇의 경우 사용자에게 얼마나 도움이 되는 답변을 제공하는지(Halpfulness)와 얼마나 안전한 답변을 제공하는지(Safety)에 대한 각각의 SFT Dataset을 별도로 구축하고 Safety Reward Model과 Helpful Reward Model을 별도로 구축한 점이 챗봇의 특성을 잘 반영한 접근법이라 생각되었습니다. 또한 사용자의 Instruction에 더욱 잘 따르는 답변을 생성하도록 하는 Ghost Attention 방법론을 함께 제안했는데 이 또한 챗봇의 특성을 고려해 제안한 직관적인 방법론이라 느껴졌습니다. 최근 LLM의 큰 흐름이 사용자의 Instruction을 잘 따르도록 모델링을 하거나 이러한 모델을 훈련시키는 방법론 혹은 데이터셋 구축 방법에 대한 연구가 많이 이루어지고 있습니다. 일차원적으로 보면 단순히 챗봇에 머물겠지만, 자연어를 이용하는 모든 서비스에 도입이 가능한 방법론들이기에 그만큼 연구가 활발히 이루어지고 있고 세간의 관심을 받는 것 같습니다. 저번 세미나 발표에 이어 이번에도 흥미로운 발표 해주셔서 정말 감사드립니다.
이번 세미나는 Llama 2: Open Foundation and Fine-Tuned Chat Models 논문을 바탕으로 진행되었습니다. NLP 분야에 대하여 자세히 연구해보지는 않았지만, 기존 Llama라는 언어 모델이 미친 파급력에 대해서는 알고 있었기에 더욱 기대되는 세미나였습니다. Llama2에 대해서 알기 위해서는, 먼저 SFT와 RLHF에 대하여 알아야 합니다. 이들은 Pretrain Task와 챗봇과의 괴리를 맞추기 위하여, LLM을 챗봇 환경에 맞추어 동작하도록 Fine-tuning 하는 방법론이라고 볼 수 있습니다. 이때 SFT의 목적은 사용자의 각 입력에 챗봇이 적절히 대응할 수 있는 응답을 직접 학습하는 방법론이라고 볼 수 있고, RLHF는 모델이 생성한 문장의 사용자 선호도를 높일 수 있도록 학습하는 방법론이라고 볼 수 있습니다. Llama2에서는 총 3가지 과정을 통하여 학습이 진행되는데, 먼저 공개된 Pretrain corpus를 활용하여 Pretraining을 진행한 후, 자체적으로 구축한 SFT 데이터셋을 통하여 Fine tuning을 진행합니다. 이후 자체적으로 구축한 Reward 데이터셋을 이용하여 Reward model을 따로 학습시킨 후, 해당 Reward model을 통하여 SFT 데이터셋을 다시 필터링하는 Rejection sampling 과정을 거쳐 최종적으로 RLHF를 통하여 Training을 진행하는 모습을 보이고 있었습니다. 전체적으로 어떤 방법론을 통하여 모델을 학습시켰다라는 것 보다는, 학습에 사용하기 위한 데이터의 질을 높이고자 다양한 방법을 시도했다는 것이 뜻깊게 다가온 세미나였던 것 같습니다. 좋은 발표 정말 감사드립니다.
이번 세미나에서는 “Llama2:OpenFoundationandFine-TunedChatModels” 논문을 소개해 주셨습니다. SFT와 RLHF는 LLM을 chatbot 환경에 맞추어 동작하도록 finetuning하는 방법론이며, 사용자의 다양한 요청을 이해하고, 안전하고 유용한 답변을 생성하고자 하고 있습니다. SFT 데이터셋은 사용자의 요청(prompt)와 적절한 응답(response)로 구성되어 있으며 이때 ChatGPT를 이용하고 있다는 점이 흥미로웠습니다. 이러한 SFT 데이터셋의 품질 평가지표에는 Reward Score, KNN-I 등이 있으며 각 평가지표와 실제 데이터의 품질 간의 상관관계를 조사하게 됩니다. SFT 학습은 모델에 새로운 지식을 주입하지 않으며, 입력 및 출력 스타일에 대한 학습이 진행되게 됩니다. LLAMA2는 공개된 pretrain corpus를 이용하며, 자체 구축한 SFT 데이터셋을 이용하여 SFT를 학습합니다. 이후, Reward Model은 자체 구축한 Reward 데이터셋을 이용하여 Reward Model을 학습합니다. Rejection Sampling에서는 aligned model의 지속적 fine-tuning을 위한 Gold Response를 직접 생성하며, 최종적으로 rejection sampling 및 reward model을 이용한 최종 모델 RLHF를 훈련시킵니다. 이때, aligned model과 reward model을 이용하여 PPO 강화학습을 진행하게 되는데, PPO 훈련시 Reward Model의 점수는 Safety와 Helpfulness 중 하나로 학습되도록 설계하게 됩니다. 추가적으로 설명해주신 ghost attention의 개념은 개인적으로 인상적으로 다가왔는데, 이는 데이터 생성시 instruction을 매 사용자의 입력마다 삽입하고, 다음으로 첫 instruction만 유지하고, 다른 user 입력에서 제거하는 방식으로 이루어집니다. 결과적으로 safety와 helpfulness가 trade off에 있다는 점을 고려할 때, ChatGPT보다 매우 좋은 safety 성능을 보이고 있었습니다. 내용이 꽤 방대함에도 불구하고 다양한 예시를 들어주셔서 이해에 많은 도움이 되었고, LLM을 주제로 지속적으로 관련 내용을 다루어 주시면서 큰 흐름을 파악할 수 있었던 것 같습니다. 좋은 세미나 감사합니다!
이번 세미나는 Llama2: Open Foundation and Fine-Tuned Chat Models를 주제로 진행되었습니다. Llama2는 개인 정보 노출 우려를 최소화하기 위해 공개된 데이터로만 pretrain이 진행되고 기존 SFT 데이터셋의 품질에 대해 지적하며 고품질의 소량 데이터셋을 자체적으로 구축하여 SFT를 수행합니다. SFT 데이터셋에 대해서 annotation을 수행할 때 더 도움이 되는 문장을 생성하도록 helpfulness와 안전한 문장을 생성하도록 safety에 대해서 annotation을 수행하였습니다. 제대로된 문장을 생성하였는지 평가하는 reward model은 생성문이 safe, helpful 여부를 분류하는 이진 분류 테스크를 수행하도록 학습합니다. 이렇게 SFT 훈련과 reward model 훈련을 반복하는데 이때 동일 prompt를 활용하여 문장들을 생성하고 해당 문장들의 score가 높은 sample들을 선택합니다. 훈련을 반복하면서 sample들을 많이 생성할 수록 좋은 모델로 간주합니다. IterativeFine-Tuning을 마친 AlignedModel과 RewardModel을 이용하여 PPO강화학습 진행하여 safety에 초점을 맞추거나 helpfulness에 초점이 맞도록 PPO 훈련합니다. 마지막으로 ghost attention을 통해 대화 전반에 걸친 instruction의 정보를 살려주는 방법을 택하였습니다. 인상 깊었던 점은 유해 컨텐츠를 필터링하지 않고 그대로 학습을 하고 fine-tune 단계에서 이러한 컨텐츠들 생성을 억제하도록 학습한 점이 인상 깊었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Llama 2: Open Foundation and Fine-Tuned Chat Models 논문을 소개해 주셨습니다. 발표자께서는 지난 세미나부터 지속해서 초거대 언어모델의 시대에 개인 연구자가 접근할 수 있는 경량 모델에 대해 소개해 주시고 계시는데, 이번 세미나 역시 동일한 주제의 논문이었습니다. 기본적으로 그러한 접근들은 거대한 LLM에 대해 복잡한 학습을 거치지 않고도 Instruction Tuning이 가능함을 보여주는 것으로, 특히 이번 LLAMA 2에서는 보다 현실적으로 SFT, Human Preference 데이터 구축 및 학습 파이프라인 설계에 대한 가이드라인을 제공하고 있습니다. 본 주제의 연구들은 언제나 예산이 중요한 쟁점인데, 본 논문에서는 본인의 예산을 들여 가이드라인을 만들어 주었다는 점이 인상적입니다. 또 인상 깊었던 점은 일반적으로 각각의 과정을 Human Annotator에 맡겨온 이전의 연구들과는 다르게 Supervised Fine-tuning 방법론과 Reward Model을 함께 고려하여 저 거절한 타협점을 찾았다는 것이 기억에 남습니다. 좋은 발표 감사합니다.
본 세미나에서는 Llama 2: Open Foundation and Fine-Tuned Chat Models 라는 주제의 논문에 대한 리뷰를 진행하였습니다. Meta에서 LLAMA 모델을 공개한 이후 LLM에 대한 활발한 연구가 지속되고 있습니다. 지난 세미나에서 다뤄주었던 Alpaca 등의 연구로부터 open-source LLM에 instruction tuning 만으로도 충분히 사용이 가능함을 제시하였습니다. Llama 2에서는 Pretrain, SFT, Reword Model, Rejection sampling, PPO (RLHF)를 통해서 학습이 진행됩니다. 이러한 과정을 통해 구성된 LLAMA 2는 가장 큰 모델 기준 모든 태그크에서 기존 Open-Source LLM 대비 가장 좋은 성능을 기록하였습니다. LLM 관련 최신 논문을 매 세미나마다 다뤄주고 있으셔서 항상 재밌게 듣고 있습니다. 좋은 발표 감사합니다!
이번 세미나에서는 "Llama 2: Open Foundation and Fine-Tuned Chat Models"에 대해 소개해주셨습니다. Llama2는 기존 Llama와 유사한 학습 과정을 가지고 있고, 특이점으로는 Iterative Fine-Tuning을 수행합니다. Iterative Fine-Tuning은 Supervised Fine-Tuning과 Reward model 훈련을 반복적으로 진행하는 방법으로, Llama2에서는 SFT 모델 훈련 -> Human Preference Data 구축 -> Reward Model 훈련 -> SFT data 구축 -> SFT 모델 훈련의 과정을 거치게 됩니다. SFT와 RLHF는 Pretrain task와 chatbot 사이의 input 및 output의 형식 차이에 따른 bottleneck을 극복하고자 사용되는 방법론으로, 사용자의 입력과 이에 따른 적절한 응답을 x-y pair로 구성하고 이를 학습 시키는 방법이 SFT이며, SFT와 reward model training을 수행하는 것을 RLHF라고 합니다. SFT 학습에서 LIMA를 통해 확인한 특이점으로는, SFT 학습 시에는 모델에 새로운 지식을 주입하지 않게 되며, 입력 및 출력 스타일에 대한 학습이 진행된다는 점이 있습니다. 그렇기 때문에 더욱이 SFT 훈련을 위한 데이터셋은 양보다는 높은 품질을 중요하게 고려해야 한다고 할 수 있습니다. Llama2는 PPO 최종 훈련을 통해 사용자가 입력한 prompt에 대해 모델이 response를 생성하고, 이에 대해 reward model이 점수를 매겨서 이 점수에 대해 다시 모델이 학습하게 됩니다. 세미나 발표 당시, 해당 논문이 발표된 지 약 열흘이 된 시점이었음에도 불구하고 논문의 자세한 내용과 이해를 도울 수 있는 background를 잘 준비해주심에 놀랐던 것 같습니다. 덕분에 좋은 논문을 보다 쉽게 이해할 수 있었고, 많은 도움이 되었습니다. 좋은 발표 준비해주셔서 감사드립니다.
이번 세미나에서는 "Llama 2: Open Foundation and Fine-Tuned Chat Models"라는 논문을 다루어주셨습니다. Llama2는 Llama의 다음 버전으로 볼 수 있는데, iterative fine tunning을 도입한 것이 가장 큰 차이점이었습니다. 결국 전문가 수준의 소양을 갖춘 챗봇으로서의 기능을 하기 위해서는 언어 모델이 온건한 표현으로 정확한 정보를 전달하는게 중요하기 때문에 LLM 모델을 그에 맞게 fine tunning하는 것이 중요합니다. Llama2에서는 이를 위해 iterative fine tunning을 진행하며 rejection sampling을 거치는데 결국 가장 고품질의 응답을 생성하도록 reward score가 높은 응답들을 채택하여 학습을 수행하는 것이 핵심이었습니다. Llama 혹은 Llama2와 같이 LLM 모델을 잘 활용하기 위한 학습 framework들이 많이 제안되고 있는데, 아직 완벽하게 뛰어난 방법론은 부재한 상황인 것 같습니다. 향후 어떤 방법론들이 개발되어 정말 전문가 수준의 언어 모델들이 다양한 영역에서 서비스 될 지 굉장히 기대가 되는 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 최근 공개 된 언어 모델 중 가장 핫하다고 할 수 있는 Llama 2 : Open Foundation and Fine-Tuned Chat Models에 대해 다뤄 주셨습니다. 해당 논문은 기존 논문들과 마찬가지로 어떻게 하면 언어 모델에게 데이터를 더 잘 학습시킬 수 있는지에 집중하고 있는 논문이라고 할 수 있겠습니다. 따라서 최근에 많이들 사용하고 있는 SFT, RLHF, Human Annotation 등이 모두 사용되고 있고, 발표자분 께서는 이러한 방법들을 하나씩 설명해주면서 Llama2와 잘 연결해주셨습니다. 다른 내용들 보다도 가장 인상깊었던 것은 모델을 학습하는 과정에서 SAFETY를 굉장히 고려했다는 점입니다. 누구에게나 사용될 수 있는 언어모델의 특성 상 매우 중요한 요소이지만, SAFETY라는 상당히 애매한 기준에서 어떻게 적절히 조절하는 것이 좋은가 라는 생각이 들었습니다. 언어 모델들이 개발 되면서 단순히 성능을 끌어 올리는 것을 넘어 이제는 helpfullness 나 safety를 고려하는 것을 보면 이제는 포화 단계가 온 것은 아닌가 하는 생각도 해보게 되었습니다. 좋은 발표 감사합니다!
이번 세미나는 Llama 2 : Open Foundation and Fine-Tuned Chat Models 논문으로 진행되었습니다. 전반적인 프로세스는 RLHF 원 논문과 비슷하지만, 각 단계별로 이전의 모델에서 부족했던 점을 조금씩 채워넣는 느낌을 받았습니다. 사전 학습 단계의 경우, 이전과 달리 필터링 작업을 수행하지 않아서 최대한 학습할 수 있는 데이터의 양을 늘렸고, 미세 조정 단계에선 SFT 데이터셋의 다양성을 높이기 위해 직접 데이터셋을 구축하였으며, 이전에 선형적이던 학습 방식에서 SFT & Reward 모델을 반복적으로 진행하는 Iterative Fine-tuning을 제안했습니다. 마지막으로 multi-turn 상황에서 초기의 대화를 기억하지 못하는 문제를 보완하기 위해 Ghost Attention을 활용했고, 결과적으로 Ghost Attention을 사용하지 않았을 때보다 더 오랜 turn에서 instruction을 따르는 답변을 생성할 수 있었다고 합니다. 지난 발표부터 계속해서 LLM에 대해 다뤄주셔서 매번 도움이 많이 되는 것 같습니다. 좋은 발표 감사합니다.
이번 세미나는 “Llama 2 : Open Foundation and Fine-Tuned Chat Models”으로 진행되었습니다. LLama2는 Llama1보다 훨씬 많은 데이터로 학습되었고 (2T > 1T), 더 긴 텍스트를 다룰 수 있습니다. 이번 논문에서는 SFT와 reward model을 iterative training하는 fine-tuning방법론을 제안하였습니다. 기존 다른 모델에서는 SFT와 reward model을 한번만하였지만, Llama2는 챗에 좀 더 집중하였고, 사용자에게 얼마나 도움되는지와 얼마나 안전한 답변을 제안하는지에 대한 데이터셋을 구축하고 safety reward model과 helpful reward model을 별도로 구축하였습니다. 또한 사용자의 instruction을 더 잘 따르는 답변을 생성하도록 ghost attention을 제안하였습니다. 해당 방법을 통해 Llama2는 다양한 대화생성 벤치마크에 더 높은 점수를 받을 수 있게 되었고 장기적인 의미적 연결과 일관성을 유지할 수 있었습니다. 해당 세미나를 통해 다시한번 foundation model의 흐름을 알 수 있게 되었습니다. 좋은 발표 감사합니다.