Seminar

BOARD

[Paper Review] Scaling Data-Constrained Language Models

Paper Review

작성자

Jaehee Kim

작성일

2024-07-07 01:41

조회

1250

논문 제목 : Scaling Data-Constrained Language Models
Arxiv 링크 : https://arxiv.org/abs/2305.16264
발표 컨퍼런스 : NeurIPS 2023
인용 수 : 109회 (2024년 3월 9일 기준)
1저자 : Niklas Muennighoff
LLM은 대량의 온라인 코퍼스로 학습되고 있어, 기존에는 1 epoch도 학습하지 않았습니다. 하지만 최근 LLM의 학습량을 비약적으로 늘리는 연구들이 등장하면서 점차 모든 코퍼스가 학습에 사용되고 있습니다. 하지만 온라인에서 생성되는 새로운 텍스트 데이터는 매우 제한되어, 결국 기존에 존재하는 데이터를 multi epoch으로 학습해야 합니다. 이러한 상황에서 LLM의 성능에 미치는 영향에 대해 탐구할 필요성이 제기되고 있고, 본 연구는 모델 크기에 따라 다른 경향성을 지니고 있다는 점을 강조하고 있습니다.
발표 구성
1. Chinchilla Scaling Law
2. Data Run-out
3. Train LLM with Multi Epoch
4. Scaling Law under Data-Constrained
5. Experiment & Analysis
6. Conclusion
발표자료: 하단 첨부
발표 영상:

전체 13

SangMin Lee

2024-07-18 14:21

해당 세미나는 "Scaling Data-Constrained Language Models"라는 논문을 바탕으로 진행되었습니다. 본 논문은 LLM의 효과적인 학습 전략에 대한 연구입니다. 특히 데이터가 부족한 상황 하의 multi epoch 시 LLM 성능 양상 관찰 및 Scaling Law를 도출한 결과, 4 epoch 까지는 학습량에 변화가 없다는 점과 40 epoch 이후에는 학습에 도움이 되지 않는다는 점입니다. 연구 결과에 절대적인 건 없지만, 다양한 실험을 통해 multi epoch에 따른 성능 변화를 심층적으로 분석한 것이 굉장히 인상 깊었으며 이런 연구들이 학습하는 상황에서 사용할 수 있는 가이드라인으로써 제공될 수 있다고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.
Junyeong Son

2024-07-19 15:35

이번 세미나는 "Scaling Data-Constrained Language Models"라는 논문에 대한 발표를 중심으로 진행되었습니다. 이번 세미나를 진행하면서 가장 흥미로웠던 점은 동일한 학회(NeurIPS 2023)에서 동일한 주제(데이터가 부족한 상황에서 Multi Epoch 학습 시의 LLM의 성능 변화를 관찰)에 대해 상반된 결과를 보인 두 논문("To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis)이 발표되었다는 것입니다. 본 논문에서는 LLM 학습 시 Multi Epoch 학습은 5 Epoch까지 효과적이다라는 결론을 냈고, 반대편의 논문에선 LLM 학습 시 Multi Epoch 학습은 성능 저하가 필연적이다라는 결론을 냈습니다. 결과적으론 훨씬 많은 리소스 환경을 바탕으로 더욱 다양하게 실험을 진행한 본 논문의 결론이 옳은 Contribution이 되었지만, 대학교 연구실에서 대기업(Huggingface)의 연구와 필적할 수 있는 연구를 했다는 점에서 많은 부분에 대해서 깨달음을 얻을 수 있었습니다. 논문의 내용으로 돌아가서, 본 논문에서는 각 1/2/4/8/16/32/64에 해당하는 Epoch로 총 24개의 실험을 진행했고 결론적으로 4 Epoch까지는 학습량의 변화가 없으며 16~40 Epoch까지는 급격하게 학습량이 감소하고, 40 Epoch 이후부터는 학습에 도움이 되지 않는다는 것을 확인했습니다. 이러한 실험들을 바탕으로 최종적인 Data-Constrained Scaling Law 공식을 도출해냈습니다. 개인적으로는 일반적인 연구자들이 생각으로만 하는 것들을 실제로 정말 다양한 실험을 바탕으로 결론을 도출해내는 과정이 매우 인상깊었습니다. 좋은 발표 해주셔서 감사합니다.
Jinwoo Park

2024-07-19 16:19

금일 세미나는 Scaling Data-Constrained Language Models라는 내용을 주제로 진행되었습니다. LLM 모델에 학습되는 데이터는 대부분 인터넷에서 수집되어 정제 과정을 거친 후 LLM에 사용되게 됩니다. 이때, 미래 인터넷 사용자 추세를 바탕으로 데이터의 생성량과 이에 따른 사용 가능한 학습 데이터의 양을 예측해 보았을 경우, 생성된 데이터 대부분이 LLM 학습에 사용될 것이며 이는 즉 학습 가능한 데이터의 부족으로 이어질 것으로 예측되고 있습니다. 이에 사용 가능한 데이터 내에서 모델을 어떻게 잘 학습시킬지에 관한 연구가 이어지고 있고, 해당 연구에서는 LLM을 Multi-epoch로써 학습시키는 방법에 대한 분석을 진행하고 있습니다. 제안 연구에서는, 기존 학습 예산이 제한되어 있을 때(모델의 파라미터, 학습 토큰 수) 최적의 조합을 도출하게 해주는 Chinchilla Scaling Law 에서 Multi-epoch 환경을 고려한 Data-Constrained Scaling Law를 제공하고 있으며, 이 모든 과정을 실험으로써 잘 설명해주고 있었습니다. 해당 실험 결과, LLM 학습 시 Multi-epoch 학습은 5epoch까지가 효과적이며, 이후로는 학습량이 줄어드는 모습을 확인할 수 있었습니다. 일반적인 상황에서는 진행할 수 없는 다양한 실험을 심층적으로 구성하여 분석한 것이 인상적인 연구였습니다. 또한, 좋은 발표 구성으로 인하여 전체적인 과정에 대하여 이해가 수월했습니다. 감사합니다.
Jaewon Cheon

2024-07-19 18:05

본 세미나는 Duplicated Samples의 영향이 큰 LLM 학습에 있어, 불가피하게 Epoch을 늘려야 하는 상황에서 성능 저하를 일으키지 않고 Step을 늘릴 수 있는 한도에 대한 법칙을 다루는 “Scaling Data-Constrained Language Models”를 중심으로 진행되었습니다. Scaling Law를 제시했던 Chinchilla와 비슷하게 학습 자원이 제한된 상황에서의 최적의 하이퍼 파라미터를 찾는 법칙을 도출하는 과정을 상세히 기술한 논문이었다고 생각이 됩니다. 특히 본 논문은 학습 토큰 수에 비해 전체 데이터 크기가 작은, 즉 Epoch이 2 이상이라 각 샘플들이 재학습이 되는 것이 불가피한 상황을 가정하였기에 결국 기존의 Scaling Law에서 multi-epoch이 고려된, 실제로 일어날법한 상황을 가정하는 셈이라고 생각하였습니다. 특히 본 논문은 multi epoch이 5번까지는 효과적일 수 있다고 제시하였지만, 동시에 그렇지 않았던 논문도 소개해주셔서 재밌게 들을 수 있었습니다. 이에 대해서는 전자의 경우 작은 모델에 비교적 훨씬 큰 에폭에 대해 실험을 했었고, 후자의 경우 큰 모델에 훨씬 작은 에폭에 대해 실험을 했었기 때문에 그에 따른 자연스러운 결과가 나온 것이 아닌가 하는 생각이 들었습니다. 개인적으로는, real-world에서는 품질이 좋지 않은 코퍼스 데이터가 많을 것이며, 이에 따라 multi epoch의 memorization 문제가 훨씬 크게 대두될 수 있을 것이라고 생각하여서 논문에서 주장하는 만큼의 multi epoch은 사실 그렇게 좋지 않을 수 있다고 생각하지만, 적어도 1번의 epoch이 항상 강제될 필요는 없을 수도 있겠다는 인사이트를 얻을 수 있었으며, memorization과 duplication 측면에서 이에 예민하게 반응하는 데이터가 있을 수 있고 그렇지 않은 데이터가 있을 수 있으니 이런 데이터를 구분해내는 연구도 가치있겠다는 생각을 하였습니다. 재미있는 논문 소개해주셔서 감사합니다.
Jiyoon Lee

2024-07-21 18:32

이번 세미나에서는 "Scaling Data-Constrained Language Models"에 대해 소개해주셨습니다. Scaling law란 예산이 정해져있을 때 어느 정도의 파라미터와 학습 토큰 수를 가지면 loss를 줄일 수 있겠다는 판단과 관련된 개념입니다. 이와 관련하여 가장 일반적으로 사용되는 개념이 바로 chinchilla scaling law로, 모델이 가진 파라미터 수의 17배 토큰을 학습시키게 되면 가장 효율적인 학습이 가능하다는 것입니다. 다만 이는 예산이 고정된 상황을 가정으로 하며, 예산을 고려하지 않은 상황에서 모델이 고정되어 있다면 데이터를 늘릴 수록 더 높은 성능을 얻을 수 있게 됩니다. 그러나 기존 LLM 학습에 사용되는 데이터가 점차 방대해짐에 따라 현대에 존재하고 있는 대부분의 텍스트 데이터를 사용하는 상황이 가까워졌고, 이를 보완하고자 한 아이디어가 multi-epoch 학습입니다. 본 세미나에서는 이 multi-epoch이 효과적인가에 대해 다른 의견을 가진 두 논문을 소개해주셨습니다. 특히나 소개해주신 두 논문이 동일한 해의 동일한 학회에서 발표된 것이라는 흥미로운 이야기도 전해들을 수 있었습니다. 하나의 데이터를 통째로 한번 학습시킨 것과 쪼개어 여러 번 학습시킨 것 중 오히려 후자가 더 성능이 우수하지 않을까 생각하였으나, 결과는 반대로 전자의 성능이 훨씬 더 우수하게 나타날 수도 있다는 것이 놀라웠습니다. LLM의 관점에서 데이터의 크기와 예산, 학습 epoch 수의 관계에 대해 자세히 살펴보고 전해들을 수 있어서 정말 좋았던 것 같습니다. 좋은 발표 감사드립니다.
Woongchan Nam

2024-07-21 23:43

금일 세미나에서는 'Scaling Data-Constrained Language Models'라는 논문을 소개해 주셨습니다. 해당 논문에서는 데이터 수가 제한된 환경에서 Multi-epoch 학습의 효과를 관찬ㄹ하기 위해 매우 작은 단위로 epoch을 증가시키며 실험 및 입증한 논문입니다. 해당 논문에서는 결과적으로, 데이터 수가 제한된 환경에서는 LLM 학습시 Multi-epoch 학습은 5-epoch까지 효과적인 것을 실험적으로 입증하였으며 동일한 시기에 나온 'To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis' 논문과 상이한 주장을 보여준 논문이라 매우 흥미롭게 들었습니다. 항상 LLM 학습에는 Single-epoch이 Memorization으로부터 회피하기 위한 관습이라고 생각해왔으나, 이에 대해 생각을 다시 한 번 해볼 수 있는 좋은 실험들을 보여준 논문이라는 점에서 의미있는 연구라고 생각이 들었습니다. 좋은 발표 감사드립니다!
SeungHun Han

2024-07-21 23:49

본 세미나는 "Scaling Data-Constrained Language Models" 논문을 중심으로 진행되었습니다. LLM 모델의 학습 데이터는 대부분 인터넷에서 수집되고 정제 과정을 거쳐 사용됩니다. 향후 인터넷 사용자 추세를 바탕으로 데이터 생성량과 학습 데이터 양을 예측한 결과, 생성된 데이터 대부분이 LLM 학습에 사용되어 데이터 부족 현상이 예측되었습니다. 이에 따라 제한된 데이터 내에서 모델을 최적화하는 방법에 대한 연구가 진행되고 있습니다. 이 연구에서는 Multi-epoch 학습 방법을 분석하여, Chinchilla Scaling Law에 기반한 Data-Constrained Scaling Law를 제안했습니다. 실험 결과, LLM의 Multi-epoch 학습은 5 Epoch까지 효과적이며 이후로는 학습량이 감소하는 것으로 나타났습니다. 일반적으로 진행하기 어려운 다양한 실험을 심층적으로 구성해 분석한 점이 인상적이었으며, 발표 구성 또한 전체 과정을 이해하는 데 큰 도움이 되었습니다. 좋은 발표 감사드립니다.
Hun Im

2024-07-07 16:09

이번 세미나에서는 데이터가 제한된 상황에서 대규모 언어 모델(LLM)을 효과적으로 학습시키는 방법을 다루는 "Scaling Data-Constrained Language Models" 논문 중심으로 진행되었습니다. 해당 연구는 최대 4 에폭까지는 성능을 유지하지만, 40 에폭을 넘어서면 학습에 더 이상 도움이 되지 않는다는 점을 발견했습니다. 이 결과는 다양한 실험을 통해 얻어진 것으로, 학습 상황에서 실질적인 가이드라인을 제공할 수 있습니다. 논문은 또한 데이터 제한 상황에서 최적의 하이퍼 파라미터 조합을 제시하여, 실제 환경에서 사용할 수 있는 중요한 인사이트를 제공했습니다. 특히 데이터 크기와 학습 에폭 수, 모델 파라미터 수 간의 최적 관계를 재정립하려는 시도를 통해, 자원이 제한된 환경에서도 최대 효율을 달성할 수 있는 새로운 학습 전략을 제안했습니다. 이번 세미나는 데이터 양과 학습 에폭 수의 조절이 모델 성능에 미치는 영향을 이해하는 데 큰 도움이 되었습니다.
Woojun Lee

2024-07-23 17:21

이번 세미나에서는 “Scaling Data-Constrained Language Models” 논문을 소개해주셨습니다. 이 논문은 LLM 학습에서 Duplicated Samples의 영향을 고려하여, 학습 자원이 제한된 상황에서 성능 저하 없이 Step을 늘릴 수 있는 법칙을 다루고 있습니다. 특히, 학습 토큰 수에 비해 전체 데이터 크기가 작은 상황에서 multi-epoch 학습의 효과를 상세히 기술하고 있습니다. 논문에서는 multi-epoch이 5번까지는 효과적일 수 있다고 제시하면서도, 다른 연구에서는 이에 대해 상반된 결과를 보여주었습니다. 개인적으로는 real-world에서 품질이 좋지 않은 코퍼스 데이터가 많아 multi-epoch의 memorization 문제가 더 크게 대두될 수 있다고 생각하지만, 이번 논문을 통해 1번의 epoch이 항상 강제될 필요는 없다는 인사이트를 얻을 수 있었습니다. 다양한 실험을 통해 Data-Constrained Scaling Law 공식을 도출한 과정이 매우 인상 깊었습니다. 좋은 발표 감사합니다.
Saeran Park

2024-07-24 01:03

이번 세미나에서는 "Scaling Data-Constrained Language Models" 논문을 중심으로 발표해주셨습니다. LLM 모델의 학습 데이터가 부족해지는 상황에서 최적의 학습 방법을 제안한 이 논문은 매우 흥미로웠습니다. 특히, Multi-epoch 학습이 5 Epoch까지 효과적이라는 실험 결과와 이를 기반으로 도출된 Data-Constrained Scaling Law를 도출한 접근이 창의적이고 실용적이었습니다. 이러한 연구 결과는 데이터가 제한된 상황에서도 LLM을 효과적으로 학습시키기 위한 실질적인 가이드라인을 제공할 수 있을 것입니다. 앞으로 LLM 모델을 개발하거나 개선할 때, 제안된 Data-Constrained Scaling Law를 활용하여 최적의 학습 전략을 설계할 수 있을 것으로 기대됩니다. 흥미롭고 유익한 발표를 준비해주셔서 감사합니다.
Kiyoon Jeong

2024-07-24 01:06

금일 세미나는 "Scaling Data-Constrained Language Models" 논문을 중심으로 진행되었습니다. 이 논문은 데이터가 부족한 상황에서 LLM(대규모 언어 모델)의 학습 전략을 연구하며, 특히 Multi-epoch 학습이 LLM 성능에 미치는 영향을 분석합니다. 연구 결과, 4 Epoch까지는 성능에 변화가 없지만, 40 Epoch 이후에는 학습에 도움이 되지 않는다는 결론을 도출했습니다. 동일한 주제를 다룬 다른 논문과 상반된 결과를 보여주며, 모델 크기와 에폭 수에 따라 결과가 달라질 수 있음을 시사합니다. 제한된 데이터 환경에서의 LLM 학습에 대한 새로운 인사이트를 제공하며, 다양한 실험을 통해 Data-Constrained Scaling Law를 도출해낸 과정이 매우 인상 깊었습니다. 발표자께서는 실험 결과와 논문의 기여를 명확하게 설명해 주셔서 이해가 수월했습니다. 좋은 발표 준비해 주셔서 감사합니다.
Hyeongwon Kang

2024-07-07 23:30

이번 세미나는 “Scaling Data-Constrained Language Models” 논문을 중심으로 진행되었습니다. 해당 연구는 제한된 학습 자원 환경에서 LLM의 Multi-Epoch 학습 효과를 분석하고, 이를 기반으로 Data-Constrained Scaling Law를 제안했습니다. 실험 결과, Multi-Epoch 학습은 4~5 Epoch까지 효과적이며, 이후에는 학습량이 급격히 감소하고 40 Epoch 이상에서는 성능에 기여하지 않는 것으로 나타났습니다. 특히 동일한 학회(NeurIPS 2023)에서 발표된 “To Repeat or Not To Repeat” 논문과의 비교가 흥미로웠으며, 각 연구의 상반된 결과가 실험 조건(모델 크기와 Epoch 범위)에 따라 달라질 수 있음을 시사했습니다. 본 연구는 현실적인 데이터 중복 문제를 다루며, 실험적으로 이를 체계적으로 입증한 점이 인상 깊었습니다. 데이터 중복과 기억 문제가 민감하게 작용하는 데이터를 구분하는 후속 연구가 이어지면 더욱 의미 있는 성과로 연결될 것 같습니다. 발표 준비에 감사드리며, 유익한 시간이었습니다.
Minjeong Ma

2024-07-07 16:22

이번 세미나에서는 제한된 데이터 환경에서 대규모 언어 모델의 효과적인 학습 전략과 그로 인한 성능 변화를 심도 있게 다룬 “Scaling Data-Constrained Language Models” 논문에 대해서 소개해 주셨습니다. 이는 데이터 제약 상황에서의 모델 성능 최적화 방법을 모색하는 중요한 작업으로, 특히 멀티 에폭을 사용한 학습 방법이 모델 성능에 미치는 다양한 영향을 체계적으로 분석하고 있습니다. 실험을 통해 데이터의 양이 제한적일 때 여러 번의 에폭을 통한 학습이 기대하는 성능 향상을 가져오지 못하고 오히려 성능 저하를 초래할 수 있음을 보여줍니다. 이를 통해 대규모 모델이 더 많은 데이터를 요구하며, 데이터의 재사용이 특정 지점 이후에는 오히려 부정적인 결과를 낳을 수 있다는 점을 알게되었습니다. 무엇보다 기존의 스케일링 법칙을 데이터 제약이 심한 상황에 적용하면서, 모델 크기와 학습 데이터량, 그리고 학습 에폭 수 사이의 최적 관계를 재정립하려고 시도한 점이 흥미로웠습니다. 또한 저자들은 제한된 자원 하에서도 최대의 효율을 달성할 수 있는 새로운 학습 파라미터 조합을 제안함으로써, 리소스가 제한된 환경에서의 언어 모델 학습 전략에 실질적인 기여를 하고 있습니다. 본 연구 결과를 통해 데이터의 양과 학습 에폭 수의 조절이 모델 성능에 미치는 영향을 상세히 알 수 있었고, 모델 크기에 따라 이러한 변수들의 최적 조화를 찾는 것의 중요성을 알게 되었습니다. 평소 LLM이 왜 많은 에폭을 학습하지 않는지 궁금했는데 이번 세미나를 통해 자세히 알게 되어 좋은 기회였습니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.

« [Paper Review] From Similarity to Superiority: Channel Clustering for Time Series Forecasting

[Paper Review] How to Select Which Active Learning Strategy is Best Suited for Your Specific Problem and Budget »

목록보기

전체 513

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11292	관리자	2020.03.12	0	11292
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 9919	관리자	2020.03.12	0	9919
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10997	관리자	2020.03.12	0	10997
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (10) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 131	Jaewon Cheon	2025.06.27	0	131
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 297	Minjeong Ma	2025.06.07	0	297
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 36	Minjeong Ma	2025.06.02	0	36
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 33	Kiyoon Jeong	2025.06.02	0	33
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33
505	[Rehearsal] 석사학위 논문심사 - 이상민 (21) SangMin Lee \| 2025.06.02 \| 추천 0 \| 조회 34	SangMin Lee	2025.06.02	0	34
504	[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14) Siyul Sung \| 2025.05.31 \| 추천 0 \| 조회 376	Siyul Sung	2025.05.31	0	376
503	[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16) Woojun Lee \| 2025.05.20 \| 추천 0 \| 조회 343	Woojun Lee	2025.05.20	0	343
502	[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16) Jinwoo Park \| 2025.05.16 \| 추천 0 \| 조회 327	Jinwoo Park	2025.05.16	0	327
501	[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18) Hun Im \| 2025.05.15 \| 추천 0 \| 조회 312	Hun Im	2025.05.15	0	312

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호