[Paper Review] From 175B to 7B
1. Topic
LLM을 연구에 활용하기 위한 다양한 시도와 최근 공개 모델들
2. Overview번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10452
|
관리자 | 2020.03.12 | 0 | 10452 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9062
|
관리자 | 2020.03.12 | 0 | 9062 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10176
|
관리자 | 2020.03.12 | 0 | 10176 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (6)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 71
|
Doyoon Kim | 2025.05.01 | 0 | 71 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (16)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 162
|
Sunghun Lim | 2025.04.24 | 0 | 162 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 145
|
Suyeon Shin | 2025.04.21 | 0 | 145 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 182
|
Woongchan Nam | 2025.04.16 | 0 | 182 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 332
|
Kiyoon Jeong | 2025.04.16 | 0 | 332 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 360
|
Hyeongwon Kang | 2025.04.09 | 0 | 360 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 354
|
Jaehyuk Heo | 2025.04.02 | 0 | 354 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 342
|
Jaehee Kim | 2025.04.02 | 0 | 342 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 291
|
Jungho Lee | 2025.04.02 | 0 | 291 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 266
|
Hankyeol Kim | 2025.03.25 | 0 | 266 |
이번 세미나 시간에는 “From 175B to 7B”라는 제목으로 최근까지 수행되어온 Large Language Model 연구들 가운데 모델의 성능과 volume을 주제로 다루어 보았습니다. 현재까지 공개된 다양한 Large Language Model들은 대부분 방대한 양의 학습데이터를 대상으로 10B이상의 모델크기를 자랑하며 학습결과를 논문화 하거나 공개해왔지만, 모델 파라미터에 대한 접근은 어려우며, 실제로 모델을 inference 하는 수준에서도 많은 연산소모량을 필요로 합니다. 이러한 상황이다 보니 NLP를 연구분야로 하는 대학원생 입장에서의 많은 고민들이 발표자에게서 느낄 수 있었습니다. 최근 “Training Compute-Optimal Large Language Models” 에서는 LLM 모델 학습 시, 제안된 자원에서 최적의 성능을 달성하기 위한 최적의 모델 크기와 학습 step 조건들을 찾고자 노력하였습니다. 그 결과, 동일한 FLOPs 조건 상황에서 학습 Loss를 기준으로 특정 모델 크기 및 학습 step상황에서 saddle point를 가지는 곡선형태로 나타나는 것을 보여주었으며, 이는 이후 효율적인 LLM학습을 위한 다양한 연구로 이어질 수 있었습니다. 또한, LLM에서 대량의 pretrain 외에 정교한 데이터를 이용한 finetuning이 필수로 요구되는데 이를 “Training language models to follow instructions with human feedback” 에서는 RLHF: Reinforcement learning with human feedback을 통해서 인간이 판단한 적절한 선호도를 모델링하는 방식으로 실제로 서비스 목적과 모델의 학습 목적을 align 하는 학습방법론을 제안하였습니다. “LLaMA” 에서는 앞선 7B의 모델 사이즈임에도 불구하고 GPT-3, Gopher 와 같은 대용량 LLM의 성능을 뛰어넘는 모습을 거두었는데, 이는 앞선 Chinchilla의 실험을 역으로 이용하여 주어진 자원 내에서 가장 효율 높은 학습 조합을 통해서 수행하였습니다. 이후 RLHF학습을 위한 Instruction Tuning 용 데이터셋 생성을 위해 GPT-3를 활용한 Self-instruct 가 제안되었습니다. 그리고 최근 Stanford에서는 이러한 Self instruct 와 Llama를 결합한 Alpaca를 공개하였습니다. 이는 기존 LLM모델들과 달리 모델과 데이터를 자유롭게 이용 가능하도록 하여 투명성과 공유 그리고 경제성을 주장하고 있습니다. 해당 세미나는 LLM을 주제로 연구를 하는 대학원생입장에서 많은 cost에 대한 고민을 공유할 수 있었고, 점차 이러한 상황이 개선되고 있다는 점과 앞으로 LLM에서 어떠한 방향으로 연구가 진행될지 기대가 됩니다.
금일 세미나는 최근 LLM 연구에 대한 동향을 정리하는 주제로 진행되었습니다. GPT부터 최근까지도 활발한 연구가 이루어지고 있는 Alpaca에 대한 소개와, 현재 LLM의 발전 방향에 대해 발표자의 코멘트를 들을 수 있었습니다. LLM은 모델과 데이터 셋의 크기를 비대하게 키워 성능을 급진적으로 향상시키려는 대기업의 연구와, 이러한 LLM을 개인 혹은 좋은 장비를 가지지 못한 연구자들이 사용할 수 있도록 accessibility와 size를 개선하려는 연구로 크게 나뉘는 것으로 보입니다. ChatGPT처럼 막대한 리소스를 활용하여 학습된 LLM은 좋은 성능을 가짐에도 일반적인 연구자들이 파라미터를 알지 못하거나, 너무 크기가 방대하여 inference할 수 없는 치명적인 아쉬움을 가집니다. 반면, LLAMA와 Alpaca의 경우 파라미터를 모두 공개하였으며, 연구실 차원에서 활용할 수 있는 크기의 모델을 제안합니다. 따라서, ChatGPT의 등장으로 방대한 물적, 인적 자원을 가진 대기업이 LLM 연구를 독식하지 않을까 하는 우려가 있었지만, Alpaca 덕분에 자원적 제약을 덜 받으며 연구를 이어갈 수 있는 환경이 조성된 형태입니다. 이처럼 하루걸러 놀라운 연구 성과가 공개되는 현실 속에서, 최신 동향을 잘 파악하는 능력이 무엇보다 중요하지 않을까 생각이 들게 하는 세미나였습니다. 좋은 발표 감사합니다.
해당 세미나는 김재희 발표자님의 "175B to 7B"라는 주제로 진행되었습니다. GPT3부터 Self-Instruct, Alpaca까지 최근 Large Language Model의 흐름과, 특징과 트렌드를 중점적으로 소개하고 있습니다. 특히 "LLAMA" Model이 가장 인상 깊었습니다. 그 이유는 자연어처리 모델들의 파라미터가 많아지고 있는 상황에서 많은 하드웨어가 요구되어 학습이 어려워지는데, 7B 모델 크기로 100B이상 큰 모델과 비슷한 성능을 도출한 점이 연구자들에게 큰 기여를 부여했다고 생각하였습니다. 또한 두 번째로 "Self-Instruct" Model에 큰 흥미로움을 느꼈습니다. 해당 모델에서는 기존 LLAMA가 인간의 선호도가 반영된 학습이 이뤄지지 않는다는 점을 문제점으로 꼽고 있고, API만 부담하여 SFT(Supervised-fine-tuning) Dataset을 확보 했다는 점이 인상 깊었습니다. 이로써 다양한 표현으로 작성된 Prompt가 생성되고 더 다양하고 정교한 응답이 출력 된다고 생각하였습니다. 해당 세미나를 들으면서 자연어처리의 흐름을 알게 되어 좋았고, 파라미터 사이즈를 줄이려는 노력과 "멀티모달(+이미지 모델과 결합, + 강화학습)"이라는 키워드와 "Promt(Instunction)" 키워드가 화두가 되고 있는 것 같았습니다. 저 또한 Prompt learning에 대해 관심이 많아, 정말 많은 도움이 되었고 자연어처리 트렌드를 빠르게 파악하고 어떻게 하면 Model의 input을 제어하고, 정교한 응답을 생성할 수 있도록 tuning 할 수 있을지 끊임없이 고민하는 계기가 되었습니다. 마지막으로 자연어처리 모델의 트렌드를 한 번 짚고 싶었는데, 자세한 설명과 방법론들에 대해 구체적으로 설명해주시고 흐름을 짚어주셔서 이해하기 쉬웠습니다. 좋은 세미나 준비해주셔서 감사합니다.
이번 세미나에서는 From 175B to 7B이라는 주제로 여러가지 LLM에 대한 내용 및 특징을 다루고 최근 NLP 분야의 연구 흐름에 대해 전반적으로 다루었습니다. 가장 먼저 다루었던 Chinchilla 논문에서는 단순히 모델 크기만 키우기보다는 학습에 가장 효과적인 세팅이 있다는 것을 실험적으로 보였습니다. 이 논문은 효율적인 학습의 중요성 및 효과성을 강조했습니다. 그 다음 다루었던 GPT-3 에서는 모델 사이즈를 확 키우면서 성능이 대폭 향상되었고 이 때부터 GPT는 모델을 공개하지 않기 시작했습니다. InstructGPT는 chatgpt의 근간이 되는 모델로 인간이 선호하는 답변에 대해 RLHF라는 강화학습 방법론을 사용하여 모델이 쉽게 학습할 수 있도록 만들었습니다. 이후 공개된 LLAMA라는 모델은 7B의 비교적 작은 파라미터로 GPT3와 비슷한 성능을 내는 open source LLM으로 small LLM 연구의 시발점이 되는 논문이라고 할 수 있습니다. 이후에는 LLAMA 모델을 기반으로 instruction tuning 및 여러가지 학습 방법을 통해 다양한 small LLM이 연속적으로 공개되고 있는 흐름이라는 것을 알 수 있었습니다. 이번 세미나는 chatGPT 이후에 NLP 분야의 연구 동향이 어떻게 바뀌었는지를 알 수 있었고, 연구 방향성에 대해서도 고민해볼 수 있었던 아주 좋은 시간이 되었습니다. 좋은 발표 감사합니다.
이번 세미나는 최근 NLP 분야의 연구 흐름에 대해 전반적으로 다루어 주셨습니다. ChatGPT가 나오기까지 연구 흐름이 어떻게 되는지 그리고 향후 연구 방향이 어떻게 되고 있는지 잘 알지 못했는데 이번 세미나를 통해 전반적인 흐름을 알 수 있었습니다. ChatGPT가 어떻게 적절한 답변을 생성하는 것인지 궁금했었는데, 이를 RLHF라는 강화학습 방법론을 통해 부적절한 생성문을 생성하지 않도록 학습한다는 점이 인상 깊었습니다. 이후 계속해서 large model의 파라미터가 공개되지 않으면서 small model을 사용하면서도 성능을 높이기 위한 연구들이 진행되었고, LLAMA라는 모델이 7B라는 작은 파라미터 개수로 GPT3에 버금가는 성능을 달성한 점이 인상 깊었습니다. 또한 LLAMA는 연구 결과물을 공유했다는 점에서 연구 관점에서 기여하는 바가 크다고 생각되었습니다. 이번 세미나를 통해 NLP 연구가 기업과 연계되서 진행되기 때문에 연구 결과물이 공유되지 않아서 어려운 점이 많다는 것을 알 수 있었고, 이러한 상황에서 연구 흐름을 정리하고 향후 연구 방향에 대해 고민하는 부분이 멋지다고 생각 들었습니다. 좋은 발표 감사드립니다.
이번 세미나는 “From 175B to 7B” 라는 제목을 주제로 하여 진행되었습니다. 해당 제목이 의미하는 것은 특정 Language Model이 가지는 Parameter의 수를 의미하여, 제목에 걸맞게 최근 Language Model 연구에 대한 최근 동향 및 트렌드를 중심으로 세미나를 진행해주셨습니다. Language Model들이 점점 발전하는 과정에서 모델의 크기(Parameter 수)와 성능이 비례한다는 것을 실험적으로 알게 된 기업들은 Computing power를 이용하여 점점 더 Volumn이 큰 모델들을 만들었고, 모델의 구체적인 정보 또한 공개하지 않는 행보를 보이고 있습니다. 이에 최근에는 Computing 자원이 부족한 일반 연구자들은 해당 모델들은 연구할 수도 없게 되어 버렸으며, Computing 자원이 충분해도 모델에 자세하게 접근하지 못하여 연구에 효율적으로 이용할 수 없는 상황입니다. 이에 최근 LLM들의 연구는 일반 연구자들도 사용할 수 있도록 모델의 효율성과 접근성을 높일 수 있도록 하는 연구와, 여전히 모델의 Volumn을 상승시켜 성능을 극대화하고자 하는 연구로 나누어진다고 볼 수 있겠습니다. 여러 가지 모델을 소개해주셨지만, 특히 주요하게 봐야 하는 모델은 Llama 라고 생각합니다. Llama는 효과적이며 범용적으로 사용할 수 있도록 LLM이 갖춰야 할 부분들을 포함하고 있으며, 성능 면에서도 7B의 크기로 다양한 LLM의 성능을 뛰어넘는 모습도 보이고 있습니다. 그렇지만 역시 Llama의 가장 큰 장점은 역시 해당 연구를 공개했다는 점입니다. Llama는 연구를 목적으로 다양한 실험을 진행할 수 있도록 여러 크기의 모델을 제공하고 있어, LLM에 대하여 효율성을 높이며 범용적으로 사용하도록 하는 연구 방향을 제시했다고 할 수 있습니다. 기존 궁금했던 LLM에 대하여 자세히 알 수 있었고, LM에 대하여 다양한 트렌드를 알 수 있었습니다. 유익하고 좋은 발표 정말 감사드립니다.
이번 세미나에서는 GPT3부터 최근 공개된 Llma와 Alpaca까지 LLM 모델들에 대해 다뤄주셨습니다. 최근 GPT4와 PaLM2 등 다양한 LLM 모델들이 나오며 LLM에 관한 관심과 연구가 커지고 있는 현재에서 한 일반 연구자로서 LLM을 어떻게 접근해야 하는지 각 모델들을 하나씩 설명해주시면서 잘 짚어주신 것 같습니다. 일반적으로 LLM을 다루기 위해서는 대량의 데이터셋과 많은 파라미터를 가지는 모델을 통한 학습 그리고 Annotator를 통해 얻은 많은 양의 Instruction 데이터를 통한 Instruct Tuning이 요구 됩니다. 하지만 이러한 방법, 비용은 연구실 단위에서 수행이 불가능 하며 대부분 대기업에 종속되어 행해 왔기 때문에 일반 연구자로써는 접근이 쉽지 않았습니다. 하지만 최근 작은 파라미터를 가진 LLM과 학습 방법들이 공개 되면서 모델, 데이터 모두 자유롭게 이용할 수 있는 환경이 조성된 것 같습니다. Vision을 공부하고 있는 입장에서 NLP에서 이러한 현 상황이 멀게 느껴지지만 최근 메타에서 Segment anything과 같은 zero-shot 범용 모델을 공개하면서 마냥 먼 것은 아니다 라는 생각이 듭니다. 더불어 대부분의 방법들이 모델을 건드리지 않고 어떻게 모델을 잘 학습 시킬 지, 어떤 데이터를 학습에 사용할지 집중하는 경향이 상당히 신기했으며, 잘 눈여겨 보고 있다가 Vision 분야에서도 이런 흐름이 왔을 때 잘 적용해야지 않나 라는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나는 최근 NLP 분야에서 가장 이슈가 되는 ‘Large Language Models’ 개요에 대한 내용이었습니다. LLM api를 공개하는 회사가 늘어날수록 연구자들 입장에서는 점점 LLM의 core에 대한 연구의 기회가 줄고 있는 상황입니다. openai는 gpt-2부터 모델 파라미터를 직접적으로 공개하지 않고 현재는 api로 output만 제공하고 있습니다. 구글 또한 이러한 추세를 따라가고 있어 최근 메타가 공개한 Llama가 연구진들에게는 한줄기의 빛과 같은 존재였습니다. 모델 파라미터는 공개하지 않았지만 효과적으로 어떻게 학습했는지에 대해 follow-up을 해두어야 어떤 한계점이 존재하는지, 어떻게 개선 가능한지에 대해 고민해보고 적용해볼 수 있을 것입니다. api를 사용하더라도 학습 방식과 align되게 사용하여야 효과적이므로 해당 부분에 대해서는 follow-up할 필요성이 있습니다. 이번 세미나를 들으면서, 더 성능이 좋은 모델을 위해 연구하는 것이 아니라 현재 연구 트렌드를 꺾기 위해 모델(Llama, Alpaca 등)을 연구하고 공개할 수 있다는 것을 알 수 있었습니다. 또한 김재희 석박통합과정이 마지막에 언급한 ‘LLM의 무엇을 연구해야할지 고민해야하는 시기’에 대해 정말 공감이 되었습니다. 이 전에 backbone으로 많이 사용된 BERT는 multi-head attention, FFNN 등 모듈이 어떻게 사용되고 어떤 효과가 있는지에 대해 연구가 되었습니다. 하지만 현재 LLM은 hidden representation조차 뽑아볼 수 없기에 이제는 LLM의 어떤 것을 연구할 수 있는지에 대해 고민을 해보아야 합니다. 현재 Alpaca와 후속 모델들은 Instruction tuning과 관련하여 연구가 된 것으로 보입니다. gpt-3.5부터 사용된 RL을 대체할만한 것에 대해서도 연구가 가능한 것으로 보입니다. 적당한 크기의 모델에서 사람의 개입없이 모델 스스로가 안정성을 고려하고 학습할 수 있는가에 대해 고민을 해볼 수 있고, 안정성을 어떻게 정량화하고 objective에 담을 수 있을지에 대한 고민도 해볼 수 있을 거 같습니다. 좋은 발표 감사합니다.
이번 세미나는 최근 Large Language Model의 흐름에 대해 전반적으로 다뤄졌습니다. LLM은 보통 대기업에서 엄청난 자원과 데이터를 통해서 개발이 되고 있습니다. 따라서 일반 연구자들은 연구할 수 없을 뿐 아니라 모델 파라미터 조차 공개되지 않고 api를 통해 접근하여 분석만 가능한 상황이 되었습니다. 그러던 와중 최근 Llama라는 7B의 크기를 가지고 100B 이상의 large 모델의 성능과 유사한 성능을 도출하며 파라미터 및 방법론에 대해 공개되어 일반 연구자들도 large language model에 대한 연구의 길이 열리게 되었습니다. 세미나에서는 chinchilla부터 alpaca 까지 모델들을 소개하고 있습니다. LLM 학습을 위한 효과적인 학습 설계, 여러 단계에 걸쳐 훈련을 시키는 instruction-tuning 등 LLM을 위한 많은 고민과 연구에 대해 들을 수 있었습니다. 항상 Language model 연구에 대해 기업이 아닌 연구실에서 해당 연구를 하는 것이 과연 옳은 일인가 부정적으로 생각을 하였었는데 Llama와 Alpaca를 계기로 진입 장벽이 낮아진거 같아 희망적으로 바뀐 것 같습니다. 우리 연구실에서도 좋은 language model 연구가 나오길 바랍니다. 좋은 발표 감사합니다.
본 세미나에서는 LM을 연구에 활용하기 위한 다양한 시도와 최근 공개 모델들에 관한 내용에 대한 리뷰를 진행하였습니다. 기존 LLM 모델의 연구자 관점의 한계점에서부터 출발하여, Chinchilla ~ Alpaca까지 최근에 발표된 LLM 모델들에 대한 리뷰를 진행하였습니다. 굉장히 많은 수의 모델에 대한 핵심을 잘 짚어주셔서 정말 '세미나'를 듣는 느낌이 들었습니다. 각각의 LLM이 도입된 배경에 대한 설명이 잘 되어있어서 흐름을 따라가는 것이 너무 쉬웠고 LLM 발전의 방향에 대해 알 수 있었습니다. 세미나 도중 인상적이었던 내용은 'Stochastic Parrot' 이라는 워딩이었습니다. 대량의 데이터와 대형 모델을 이용하여 Language Mdeling을 수는 것만으로 인간의 언어와 내포된 의미를 이해할 수 있는가? 라는 질문이 큰 공감이 되었고, 이를 해결하기 위해 도입된 RLHF 조금 더 인간과 비슷한 방식의 LLM제안에 큰 역할을 했다고 생각합니다. 본 세미나를 통해 최근 LLM의 흐름에 대해 쉽게 알 수 있었습니다. 좋은 발표 감사합니다!
이번 세미나에선 Large Language Model을 주제로 최근까지 공개된 모델 전반에 대해 소개되었습니다. 거대 언어 모델은 모델 파라미터 및 학습에 필요한 데이터 측면에서 일반 연구실 수준에서 다루기 어려운 주제입니다. 그럼에도 본 세미나에선 LLM의 파라미터를 175B에서 7B까지 경량화하여 LLM이 연구에 어떻게 활용될 수 있을지를 여러 연구들을 토대로 소개해주셨습니다. 인퍼런스 가능한 수준까지 LLM이 경량화된 지금 연구자 입장에선 공개된 LLAMA같은 모델을 어떤 task에 어떻게 적용할지를 고민해야한다는 가이드가 기억에 남습니다. 활용 가능한 데이터의 annotation 확보가 어렵다는 점을 고려하면 학습 방식은 self-supervised learning 혹은 prompt tuning 방식이 될 것이고, 시간과 비용 측면에서의 효율성을 개선하는 것이 향후 연구의 경쟁력이 될 것이라 생각됩니다. 발표자분께서 많은 연구들을 정리해주시면서도 LLM의 동향에 대해 자세히 모르는 사람도 이해하기 쉽게 설명해주셨던 것 같습니다. 좋은 세미나 발표 감사합니다.
이번 세미나에서는 From 175B to 7B를 주제로 다양한 LLM 모델들을 소개해 주셨습니다. 본격적으로 모델들을 다루기에 앞서 기존 LLM 모델들의 한계점을 다루어 주셨는데 그 중 하나는 API를 통한 접근만이 가능하다는 점과 대부분의 모델은 다운로드 받을 수 없다는 점입니다. 단계적으로 기존의 llm 모델들의 한계점과 전체적인 모델의 흐름을 잘 정리해주셔서 추후 발표 흐름을 이해하는데 많은 도움이 되었습니다.이후에 공개된 LLM에 의해 흐름이 바뀌었다고 할 수 있는데, 이는 작은 크기의 모델로 좋은 성능을 낼 수 있기 때문입니다. Chinchilla는 기존의 llm 모델에 대한 시험을 바탕으로 학습 step 수, 모델 파라미터 수별 loss를 공식화하였습니다. 대용량의 데이터셋에서 전처리 과정을 통해 품질을 향상시킬 수 있는데, 그 방법으로는 quality filtering, de-duplication, privacy reduction 등이 있습니다. 이러한 전처리 방법뿐만 아니라 학습 데이터 출처, 전처리 방식까지 성능에 큰 영향을 미칠 수 있다는 점이 인상적이었습니다. 기존의 GPT-3의 경우에는 혐오 표현 등을 학습할 수 있다는 한계점이 있었는데, 이를 해결하기 위해 target-data adaptation을 진행하였는데, 이는 소수의 정교한 데이터로 finetune하는 것을 의미하고 있습니다. 다음으로는 language modeling이 정말로 언어의 의미를 이해하고 있는가에 대한 질문을 던지게 되는데, 이에 대해서 stochastic parrot이라고 언급하며 아니라고 답을 하고 있습니다. 뒤이어서 실제 서비스 목적과 모델의 학습 목적을 align시킬 수 있는 학습 방법론을 제안하고 있는 데 이를 RLHF(reinforcement learning with human feedback)이라고 하고 있습니다. RLHF의 학습은 다음과 같이 supervised fine tune training (SFT), reward model training, reinforcement fine-tuning(RLHF)으로 이루어졌다고 할 수 있으며, 이러한 과정을 통해 “사용자의 입력에 안전하고 유용하게 반응”하는 모델이 학습될 수 있습니다. 이번 세미나를 통해 굉장히 많은 모델들과 인사이트를 언급해 주셨는데 정리력과 발표에 있어 많이 배워갑니다. 좋은 발표 감사합니다!
이번 세미나에서는 거대 언어 모델을 연구실 단위에서 활용할 수 있도록 하는 다양한 시도에 대해 소개해 주셨습니다. 발표는 그러한 시도들을 시간 순으로 알려주시며 최근의 동향까지 설명해 주셨는데, 발표자 분의 실력과 열정을 느낄 수 있는 세미나였습니다. 발표에서는 기존 LLM 모델의 연구자 관점의 한계점를 먼저 밝혀 주시고, Chinchilla 논문을 통해 LLM Pretrain 시 학습 Step 수와 모델 파라미터 수 간의 관계에 대해 설명해 주신 후 경제적인 언어 모델에 대해 소개해 주셨습니다. 핵심 적인 것은 다수의 언어 모델을 함께 사용하여 Self Instruct를 수행하는 것으로 이번 세미나의 제목에서 처럼 175B 에서 7B으로 엄청난 모델 경량화를 달성하면서도 유사한 성능을 보이고 있습니다. 이번에 특히 인상적이 었던 부분은 두 가지로, 우선 Chinchilla에서 효율적인 학습에 대한 연구를 수행한 점입니다. 개인적으로는 스스로 연구를 하거나 다른 연구를 공부할 때에도 핵심이되는 방법론이 어떤가에 대해서만 고민하고, 그를 달성하기 위한 실제 학습에 대해서는 고민이 부족했었는데, 이번 결과를 보고 많이 반성했습니다. 다음으로 self instruct 기반의 방법에 대해서는 이전에 스스로도 생각해 본적이 있었는데, 얼마 지나지 않아 이미 핫한 방법이라는 것을 보며, 사람들 하는 생각은 비슷하고 결국에는 누가 그를 구체화하고 실제로 수행하느냐의 싸움이라는 생각을 했습니다. 좋은 발표 감사합니다.
이번 세미나에서는 지금까지 공개된 Large Language Model의 발전 방향을 전체적으로 다루어주셨습니다. GPT-3와 같은 대규모 LLM의 한계점부터 시작하여 이를 해결하고자 하는 다양한 시도들을 소개하였는데, 그 중에서도 메타가 공개한 Llama에 대한 설명이 특히 인상적이었습니다. Llama는 기존의 LLM들이 가지고 있던 API를 통한 접근 제한이나 모델 다운로드 불가능이라는 한계점을 해결한 모델로, 이로 인해 연구자들이 보다 쉽게 LLM을 연구하고 활용할 수 있게 되었습니다. 또한, Llama는 작은 크기의 모델로서 효과적인 학습과 성능을 보였으며, 이로서 대규모 파라미터의 LLM이 아니더라도 충분히 유의미한 성능을 낼 수 있음을 보여주었습니다. 또한, 이번 세미나에서는 Llama와 같이 작은 파라미터를 가진 모델을 효과적으로 학습시키기 위한 전략들과 데이터 전처리 방법에 대해 설명해주셨습니다. 이는 모델의 성능뿐만 아니라 안전성을 향상시키는 데에도 중요한 역할을 하였습니다.마지막으로, RLHF(reinforcement learning with human feedback)와 같은 새로운 학습 방법론을 소개하면서, 이를 통해 Llama와 같은 모델이 사용자의 입력에 안전하고 유용하게 반응하도록 만들 수 있음을 강조하였습니다.러한 발표를 통해 LLM의 발전과정과 현재 상황, 그리고 앞으로의 연구 방향에 대해 깊이 이해할 수 있었습니다. 좋은 발표 감사합니다.
금일 세미나에서는 최근 많은 이슈를 받고있는 GPT3 부터 최근 연구흐름까지 볼 수 있는 시간이였습니다. 발표중 발표자께서 오픈소스로 기존에 모든것이 공개되던 초창기 LLM 모델들에 비해, 최근 ChatGPT 와 같이 API 기반으로 사용할 수 있는 방법론들은 학습, 모델구조를 건드리지 못하게하는 단계로 왔다고 언급했습니다. 해당 방법론의 결과로 부터 어떤 방법론 인지 성능을 비교 할 수 있을 뿐 디테일 한 것들은 알 수 없어, 연구자체가 힘들어짐을 말했고 사실 이러한 부분이 이후 나오는 논문들을 선택한 이유다 라고 언급하는 것이 인상깊었습니다. 현재 상황에서 LM 모델을 연구할 수 있는 방안으로 생각을 하였고, 특히 마지막에 제한된 용량에서 특정 모델을 학습시키기 위한 자원(Parameter) 에 따라 train loss 가 달라짐을 보이며, 특정 상황에서는 꼭 large model 이 우수하지 않을 수 있음을 보여주며, 선행연구자들이 해온 시행착오를 적게 겪을 수 있게끔 해주는 좋은 정보를 많이 전달해준 세미나 였습니다. 최근 연구흐름과 더불어 앞으로의 연구방향에 대해 좋은 귀감을 가졌습니다. 감사합니다.
이번 세미나는 Large Language Model (LLM) 연구 동향을 아우르며 크게 6개의 방법론을 위주로 소개해주셨습니다. ChatGPT의 등장 이후 LLM에 대한 수요가 폭발적으로 증가하고 있는 반면, LLM을 구축하고 있는 소수의 빅테크 기업을 제외하고서는 LLM 연구 개발에 대한 접근성이 크지 않은 실정입니다. 다만 Meta로부터 7B 사이즈의 LLAMA 모델이 공개된 이후, 스탠포드에서 Self-Instruct 방법론을 결합한 Alapaca를 공개하였고, 덕분에 비교적 적은 자원으로도 LLM 학습 및 연구가 가능케 되었습니다. 최근, BloombergGPT와 같이 도메인 특화된 LLM에 대해서도 관심 있게 보고 있는데, 금번 세미나를 통해 LLM 연구 흐름을 정리할 수 있어서 좋았습니다. 개인적으로 RLHF라는 키를 들고 InstructGPT 및 ChatGPT를 발전시킨 OpenAI의 선구안이 굉장하다고 생각하는데, human 개입 없이 LLM 학습이 실제 서비스가 가능할 정도의 적확도를 가질 수 있을지 의문이 들며 동시에 향후 연구 방향이 상당히 기대됩니다. 유익한 세미나 진행해주셔서 감사합니다.
이번 세미나에서는 “From 175B to 7B”라는 주제로 최근 수많은 연구들이 진행되어 오고 있는 Large Language Model(LLM)들에 대한 전반적인 흐름을 되짚어보며 개인 연구자 입장에서 어떠한 연구가 가능할지까지 매우 유익한 내용을 전달해주셨습니다. GRU, LSTM과 같은 RNN 계열에서 시작되었던 언어 모델이 Transformer의 등장 이후로 점점 모델 크기가 커지다 여러 연구들의 실험 결과로 Model Size가 커질수록, Model Train에 사용되는 Corpus의 크기가 커질수록 모델의 성능 향상이 가능하다는 결론을 바탕으로 언어 모델의 크기는 10년 전의 것과는 비교 불가능하게 커져왔습니다. 개인 연구자 입장인 저 또한 실제 서비스 단에서는 성능이 높은 LLM을 활용하는 것이 현실적인 방안이라 판단되어, 이미 성능이 좋은 LLM을 어떻게 하면 조금 더 효율적으로 특정 Domain 혹은 Downstream Task에 조금 더 최적화시킬 수 있을지 또는 어떻게 하면 조금이라도 더 효율적으로 Fine-tuning을 시킬 수 있을지 관심을 가져왔기에 이번 세미나는 굉장히 흥미롭게 들을 수 있었고 유익했습니다. 특히, 세미나 초반에서 말씀해주셨던 바와 같이, 개인 연구자는 현실적으로 제한된 Computational Resource를 가지고 있기에 건드릴 수 없지만 Downstream Task 성능 향상이라는 연구 주제의 벽과 같은 존재가 되어버린 LLM에 대해 말씀해주셔서 많은 공감이 들었습니다. 정말 좋은 발표 감사드립니다.
이번 세미나는 “From 175B to 7B”라는 주제로 근 몇년간의 LLM 연구 흐름에 관해 진행되었습니다. 총 6가지의 LLM을 소개해주셨는데 그 중에서도 모델의 크기를 계속 키우고, 모델 또는 데이터셋을 공개하지 않는 흐름에서 벗어난 Llama, Self Instruct가 가장 흥미로웠습니다. 특히 Llama의 경우 InstructGPT처럼 학습에 실제 사람의 선호도를 반영하는 과정이 없으므로 온전한 챗봇으로 동작할 수 없다는 한계가 있는데, 이를 개선하기 위해 적은 비용으로도 대규모의 데이터셋을 생성할 수 있는 방법을 제시한 Self Instruction가 인상 깊었습니다. 최근에 하루가 다르게 새로운 LLM이 공개되어서 어떤 모델이 어떤 특징을 가지고 공개되었는지 감을 잡지 못했는데 해당 세미나 덕분에 전반적인 흐름을 파악할 수 있었던 것 같습니다. 좋은 발표 감사합니다!
금일 세미나는 "From 175B to 7B"라는 주제로 진행되었습니다. 본 발표에서는 Large Language Model을 연구에 활용하기 위한 다양한 시도와 이와 관련하여 최근 공개된 6개의 모델이 소개되었습니다. 개인적으로 NLP 논문들은 제 연구 분야가 아니다보니 팔로우업하고 있지 않은데 한 번에 최근 Large Language Model의 트렌드에 대해 들을 수 있어 좋았고, 특히 소개된 모델 중 Instruct-GPT가 인상 깊었습니다. 일단 Instruct-GPT에서 단순 large language model의 language modeling을 통한 학습은 확률적으로 동작하는 앵무새(Stochastic Parrot)에 불과하다는 공격적인 워딩이 눈길을 끌었고, 이러한 문제를 해결하기 위해 사용자의 입력에 안전하고 유용하게 반응할 수 있도록 실제 서비스 목적과 모델의 학습 목적을 Align 시킬 수 있는 RLHF 학습 방법론을 제안한 점이 흥미로웠습니다. 연구실에서 NLP 논문 관련 세미나를 듣다 보면 다른 분야보다 문제를 해결하기 위해 데이터셋 자체에 접근하는 경우가 많은 것 같은데 Instruct-GPT도 비슷한 계열의 논문이어서 더 흥미롭게 들었습니다. 좋은 발표 감사합니다.
이번 세미나는 "From 175B to 7B"라는 주제로, 전반적인 Large Language Model에 대한 설명과 흐름에 대해 소개해주셨습니다. 발표는 Chinchilla, GPT-3, Instruct GPT, LLaMA, Self Instruct, Alpaca 등으로 구성되었습니다. 점차 모델의 크기가 커져감에 따라, 모델의 크기는 작게 하면서도 큰 모델과 성능을 유사하게 유지하는 형태의 작은 크기의 LLM 학습 방법론들이 등장하고 있으며, 이는 Chinchilla -> LLaMA -> Self-Instruct로 이어지게 됩니다. 특히 LLaMA는 7B 정도의 작은 크기인데, 그럼에도 불구하고 기존 큰 크기의 LLM의 성능을 뛰어넘는 것을 보였고, 이에 따라 점차 과도하게 큰 크기의 모델 보다 현실적으로 다양한 실험이 가능한 정도의 적정 크기 모델에 대한 연구가 더욱 활발히 진행되게 되었음을 알 수 있었습니다. 최근 NLP 분야가 매우 활발히 연구가 진행됨에 따라, 짧은 시간 안에 다수의 방법론들이 등장하고 있기에 평소 그 흐름을 정리하기 어렵다는 느낌을 받았습니다. 이번 세미나를 통해 주요한 핵심들을 확인해볼 수 있어 좋았습니다. 특히, 명확한 발음과 구체적으로 잘 정리된 발표 흐름, 그리고 굉장히 깔끔하게 구성된 발표 자료까지 항상 발표를 들을 때마다 감탄하게 되는 것 같습니다. 항상 좋은 발표 준비해주셔서 감사드립니다.
이번 세미나에서는 근 3년내 등장한 Large Language Model(LLM) 들에 대해서 전반적인 흐름이 소개되었습니다. 이제는 1년 단위가 아닌 월 단위로 십 여개의 언어모델들이 등장하고 있는 상황입니다. 세미나의 제목에서도 알 수 있듯이 점점 모델의 사이즈가 커져만 가는 상황이고 이제는 학교의 연구실 차원에서 다룰 수 없는 모델들이 등장한지는 이미 꽤 오랜 시점이 흘렀습니다. 개인적으로 NLP와 연관된, 엄밀히는 LLM 또는 LM 자체의 개발이 아닌 이를 응용하는 차원의 Task에 관심을 가지고 있는 점도 앞선 이유와 같이 이미 학계에서의 수준을 벗어났다는 판단이 들어서도 있습니다. 늘 생각하는 궁극적인 AI의 완성체는 토니 스타크의 AI 비서인 자비스라고 생각합니다. 즉, 음성인식은 잠시 제외하더라도 ,멀티모달의 대화형 언어모델이 어느 순간의 종착점일 것 같습니다. 한편, 현재 GPT-3가 등장함으로써 또 다른 phase가 시작이 된 것은 사실이나 실제 사용 경험을 비추어 봤을 때 정확도와 신뢰도가 일상적으로 사용하기에는 아직 멀다는 느낌을 받았습니다. 그런 면에서 단순히 학습 데이터 양으로 승부보는 것이 큰 모델의 정확도를 효율적으로 향상 시킬 수 있는 기술들에 조금 더 초점을 두고 그에 대한 연구방향이 이어져나가면 어떨까 싶습니다. 수업 시간에 설명해도 되겠다는 교수님의 극찬처럼 많은 양의 내용을 아주 잘 정리해주셨습니다. 좋은 발표 잘 들었습니다. 감사합니다.
이번 세니마는 GPT3의 175B이라는 거대한 모델을 시작으로 최근에 나온 Alpaca(7B)까지 Large Language Model(LLM)에 대한 전체적인 흐름에 대해서 설명해 주셨습니다. LLM의 연구 흐름은 기존 GPT3가 공개된 이후로는 사실상 API만 존재할 뿐 직접적으로 공개된 모델을 사용할 수 없었고 공개되었더라고 사용하기 힘들 크기의 모델이기에 새로운 LLM 자체에 대한 연구는 개인이나 아카데미에서는 다루기 어려웠습니다. 하지만 최근 LLAMA가 공개된 후로 성능은 GPT3와 유사한 수준에서 그보다 훨씬 작은 모델 크기를 통해 많은 사람들에 의한 variants가 생기고 있습니다. 따라서 LLM에 대한 연구 흐름을 알기가 더더욱 어렵게 되었는데 오늘 세미나 내용을 통해서 한눈에 보기쉽게 정리해주셔서 유익했던 시간이었습니다. 좋은 발표 감사합니다.