[Paper Review] Tuning Language Models by Proxy

작성자
Yukyung Lee
작성일
2024-02-10 03:52
조회
1453
1. Topic

LLM weight에 직접 접근하지 않고도 모델을 조정할 수 있는 proxy tuning 을 소개합니다.

(Note: 본 발표는 proxy tuning을 소개하기 이전에 LLM training 방법과 merge method의 연구 흐름을 함께 소개합니다.)

2. Overview
  • Black-box LM 위에서 작동하는 lightweight decoding-time algorithm
  • 모델의 internal weight에 접근하지 않고도 모델을 직접 조정할 수 있음
  • Decoding-time expert equation을 활용하여 base model의 prediction을 수정함
  • Output logit 값을 이용하여 decoding 시 예측 확률을 수정하는 방법을 제시함
3. 발표자료 및 발표영상

발표자료 : 하단 첨부파일

발표영상 : 추후 업데이트
전체 13

  • 2024-02-23 12:51

    이번 세미나는 “Tuning Language Models by Proxy” 논문을 중심으로 진행되었습니다. 본 연구는 LLM을 직접 튜닝하지 않고도 성능을 향상시키는 Proxy Tuning 방법론을 제안합니다. 기존의 Parameter Efficient Tuning 방법론은 LoRA 등을 이용하지만, 이는 큰 모델을 직접 이용해야 하므로 학습 비용이 매우 큽니다. Proxy Tuning은 작은 7B 모델을 튜닝하고 이를 기반으로 보조적인 Vocab 생성 확률을 사용하는 방식으로, 70B 모델과 유사한 성능 개선을 보였습니다. 생성 시 Contrastive Learning 및 Decoding을 도입하여, 기존의 LLM 생성 능력을 유지하면서도 다양한 태스크에서 성능을 향상시키는 점이 매우 인상적이었습니다. 본 방법론은 특히 자원이 제한된 환경에서 큰 모델의 성능을 활용할 수 있는 가능성을 보여주었습니다. 세미나를 통해 Proxy Tuning이 기존 방법론을 대체할 수 있는 잠재력을 가진다는 점을 알게 되어 매우 유익했습니다. 좋은 발표 감사합니다.


  • 2024-02-13 10:56

    금일 세미나는 LLM을 직접 학습하지 않고도 효과적으로 성능을 향상시키는 Proxy Tuning 이라는 방법론을 제안한 "Tuning Language Models by Proxy" 논문을 중심으로 진행되었습니다. 기존의 Parameter Efficient Tuning 방법론은 LoRA 등을 중심으로 기존의 LLM 파라미터 튜닝을 근사하는 방식으로 이루어져왔습니다. 하지만 이와 같은 경우에서 175B 등 매우 큰 파라미터를 직접 이용하여 Forwarding 절차가 수행되어야 하는 등 매우 큰 학습 비용이 발생합니다. 하지만 비교적 작은 7B 모델을 Tuning하여, Tuning하지 않은 7B 모델과 비교를 통해 보조적인 Vocab 생성 확률을 사용하는 해당 방법론은 높은 성능 개선을 보이고 있습니다. 특히나, 70B 등의 모델을 직접 학습한 것과 비슷한 수준의 성능 개선을 일부 태스크에 관찰할 수 있는 모습을 보이고 있습니다. 생성 시 Contrastive Learning 및 Decoding을 도입하는 방법론은 기존에도 다수 제안되어 왔으나, LLM의 생성 능력을 그대로 활용하면서도 다양한 Task에서의 성능을 개선시키는 모습이 매우 인상적이었습니다. 향후 연구 방향에 있어서도 비교적 작은 모델을 Tuning하고 그 결과물을 활용할 수 있다면, LoRA 등을 사용하는 기존 방법론을 대체할 수 있지 않을까 하는 궁금증이 생기는 연구였습니다. 좋은 발표 감사합니다.


  • 2024-02-13 15:28

    금일 세미나는 light-weight decoding-time algorithm을 통해 LLM의 weight에 접근할 수 없을 때도 모델의 prediction 확률을 수정하는 방법론을 제안한 "Tuning Language Models by Proxy" 논문을 중심으로 진행되었습니다. 해당 논문은 최신 방법론을 통해 Desired capability를 얻기 위해 fine-tuning을 하면 원하는 task에 대해 성능이 향상할 수 있지만, 모델의 가중치가 공개되지 않은 경우 이를 적용할 수 없는 한계를 지적합니다. 구체적으로, Expert model과 anti-expert model 사이의 logit 차이를 기반으로 logit offset을 계산합니다. 이후, Logit offset을 base model의 logit에 더하여 vocab distribution을 조정함으로써 모델의 prediction 확률을 조정합니다. 이러한 contrastive decoding style을 통해 해당 논문은 적은 resource로 추가 비용 없이 inference 단계에서 특정 task에 대한 모델의 capabilty를 증대하였습니다. 이러한 방식은 큰 모델을 직접 fine-tuning하는 것보다 resource를 적게 소모하는 점에서 큰 contribution을 가집니다. 현재 general한 capability가 높은 수준으로 올라온 LLM 관련 연구에서 특정 task에 대한 전문성을 함양하는 수단으로 매우 적합하게 활용할 수 있을 것 같습니다. 좋은 발표 감사합니다.


  • 2024-02-19 10:18

    이번 세미나에서는 Tuning Language Models by Proxy라는 논문을 메인으로 최근 LLM의 발전 방향을 함께 다루었습니다. 최근 LLM을 학습하는 방식에 대해 SFT, RLHF, DPO 등을 포함하는 Fine-tuning LLM과 Tie, DARE, Weight average 등의 Merge LLM을 큰 분류로 하여 다루었습니다. Proxy-tuning은 마찬가지로 LLM을 학습하는 방법론이지만 LLM weight에 직접 접근하지 않고 모델을 조정하는 tuning 방법론입니다. 해당 논문은 LLM의 성능과 함께 모델 크기가 매우 커지는 상황에서 fine-tuning을 하기 위해서는 많은 자원이 필요할 뿐만 아니라 모델 weight가 공개되어 있지 않은 경우에는 심지어 fine-tuning이 불가능하다는 점을 지적하였습니다. 이러한 상황에서 proxy-tuning은 fine-tuning된 작은 LLM의 output logit을 학습되지 않은 큰 LLM의 output logit에 결합하여 간접적인 fine-tuning의 효과를 보였습니다. 하지만 모든 모델이 같은 model family여야 한다는 점과 vocab이 일치해야 한다는 점이 너무 강한 가정인 것 같아 아쉬웠습니다. 최근 LLM의 트렌드와 proxy-tuning이라는 참신한 방법론을 접할 수 있어서 좋은 시간이었던 것 같습니다. 좋은 발표 감사합니다.


  • 2024-02-20 15:56

    이번 세미나에서는 기존의 언어 모델 튜닝 방식과는 달리, 모델의 내부 가중치에 직접 접근하지 않고도 효과적인 성능 개선을 이뤄내는 "Tuning Language Models by Proxy" 방법론과 관련된 논문들을 발표해 주셨습니다. 이 방법론은 특히 큰 모델에 대한 fine-tuning의 대안으로서 주목을 받았는데, 대규모 모델을 직접 튜닝하는 데에는 막대한 자원이 소요되는 반면, Proxy-tuning은 Decoding 시점에서 출력 로짓을 변경하여 비용을 절감하고 효율성을 증대시키는 방법을 제안합니다. 해당 연구는 특히 모델의 weight가 공개되지 않은 경우에도 적용 가능하다는 점에서 큰 의미를 갖습니다. 많은 상황에서 모델의 가중치에 접근할 수 없기 때문에, Proxy-tuning은 이러한 제약을 극복하고 모델의 성능을 향상시킬 수 있습니다. 또한, Proxy-tuning은 fine-tuning이 가져올 수 있는 'forgetting'의 위험을 줄이면서도 모델의 예측력을 개선할 수 있다는 장점을 가지고 있습니다. 이는 특히 다양한 작업에 걸쳐 모델을 일관되게 튜닝하고자 할 때 매우 유용할 것으로 생각됩니다. 개인적으로, Proxy-tuning의 가장 인상적인 부분은 모델의 크기에 관계없이 성능을 개선할 수 있다는 점입니다. 예를 들어, 7B 모델을 사용하여 70B 모델과의 성능 차이를 상당 부분 해소할 수 있다는 결과는 매우 놀라웠습니다. 이는 특히 모델의 가중치에 접근할 수 없거나, 자원이 제한된 환경에서도 대규모 모델의 성능을 활용할 수 있을 것이라 생각합니다. 해당 방법론은 다양한 NLP Task에 걸쳐 모델의 성능을 향상시킬 수 있는 가능성을 제시하였다는 점에서 앞으로도 큰 영향을 미칠 것이라고 생각합니다. 좋은 발표 해주셔서 감사합니다.


  • 2024-02-21 10:07

    이번 세미나에서는 Tuning Language Models by Proxy라는 논문을 소개해주셨습니다. 이 논문은 기존의 언어 모델을 직접적으로 수정하는 대신, proxy 모델을 통해 간접적으로 튜닝하는 새로운 접근법을 제시하였습니다. Proxy-tuning 방법은 기존의 LLM 학습 방법과 달리 모델 파라미터에 weight를 직접 업데이트 하는방법이 아니라, GPT4 와 같이 api 형태로 모델의 결과문을 뽑아주는 근래의 LLM에도 적용이 가능한 방법론이라는 점이 인상깊었습니다. 모델 최후단에 붙이는 모듈치곤, 상당히 인상적인 튜닝효과를 보여주어 신기하였지만, 다만 model family의 제한, vocab 통일의 제한등 한계점이 명확했던 것 같습니다. 이번 세미나에서 LLM의 최신트렌드와, 다양한 방법론들을 팔로우 업 할 수 있어서 너무 유익했습니다. 항상 좋은 세미나 준비해주셔서 감사합니다.


  • 2024-02-21 13:41

    이번 세미나에서는 LLM weight에 직접 접근 없이 학습할 수 있는 proxy-tuning을 제안하는 Tuning Language Models by Proxy에 대해 다뤄주셨습니다. Proxy-tuning은 기존의 학습 방법들이 LLM weight에 직접 접근하여 조정하던 것과 달리 Black box인 상태에서도 조정이 가능한 이점을 갖는 학습 방법입니다. 또한 점차 LLM의 크기가 커져감에 따라 학습을 위해서는 더 많은 자원이 요구 되지만 proxy-tuning은 빠르고 효율적으로 학습할 수 있다는 이점을 갖고 있습니다. 다만 해당 방법론의 경우 모든 black box LLM에 적용할 수 있는 것은 아니며 Input에 대해 전체 vocab에 대한 output logit을 얻을 수 있는 상황에서만 사용 가능하다는 제약이 있습니다. 이 때문에 모든 상용되고 있는 LLM에 적용하는 것은 어렵다라는 생각은 들지만 vocab distribution만을 조정하여 학습하는 것과 동일한 효과를 내는 것은 기존 학습 방법론 대비 큰 이점이라 생각이 됩니다. LLM들의 크기가 커지면서 학습하는 것이 점차 힘들어짐과 동시에 한편으로는 이러한 어려움을 극복하기 위한 방법 역시 많이 제안되고 있다 생각 되었습니다. 이러한 방법은 LLM에만 국한되지 않고 여러 딥러닝 모델들에도 적용될 수 있다 생각되며 좋은 연구라 생각이 들었습니다. 좋은 발표 감사합니다!


  • 2024-02-22 23:18

    이번 세미나에서는 "Tuning Language Models by Proxy"를 주제로 소개해주셨습니다. 놀라운 성능을 갖는 새로운 모델을 학습시키고자 하던 흐름을 지나, 현재는 기존 모델을 어떻게 입맛에 맞게 잘 사용할 것인가에 집중되고 있음을 전달해주셨습니다. 특히, 그 중 MergeLLM은 두 가지 모델을 합쳐 각각의 모델이 갖는 장점을 모두 활용하고자 하는 아이디어입니다. PLM을 활용하여 직접적인 fine-tuning을 수행하는 Starts with base model, fine-tuned 모델의 추가 튜닝을 수행하는 Intertraining, 여러 fine-tuned 모델을 합하여 target task에 더 강한 성능을 보이도록 하는 Fusing 크게 3가지로 나뉘어집니다. 세미나에서 소개해주신 Proxy Tuning 방법은 학습 시키고자 하는 LLM, 작은 expert, 작은 anti-expert 3가지 모델의 logit을 모두 구하고, 이를 활용하여 softmax를 통해 학습을 수행합니다. 방법론의 핵심 아이디어는 contrastive decoding style로 동일한 크기의 expert와 anti-expert가 있으면 이 둘의 차이를 바탕으로 큰 LLM을 학습시킬 수 있다는 아이디어입니다. 즉 큰 모델의 weight를 온전히 학습시키지 않더라도 proxy tuning을 사용한다면 LLM tuning의 성능을 근사할 수 있다는 점을 큰 장점으로 갖고 있는 방법론이었습니다. 매 세미나마다 하나의 큰 흐름에 대해 이해하기 쉬우면서도 중요한 핵심들을 쏙쏙 알려주셔서 항상 많은 도움이 되고 있습니다. 이번 세미나도 좋은 내용을 전달해주셔서 정말 감사드립니다.


  • 2024-02-23 01:46

    본 세미나는 이유경 발표자님께서 "Tuning Language Models by Proxy"라는 주제로 진행해주셨습니다. LLM 학습 방법론 중에서도, Proxy tuning이라고 하는 weight에 직접 접근하지 않고도 모델을 조정할 수 있는 학습 방법론에 대해 주로 다뤘습니다. 특히 해당 방법은 큰 작은 모델로도(ex-7b), 큰 모델(ex-70b)의 효과를 야기할 수 있도록 하는 장점이 있습니다. 또한 모델 기존 학습 방법론인 instruct-tuning과 TAPD, DAPT 같은 경우는 많은 resource와 모델 weight가 GPT-4처럼 비공개인 경우에는 추가 학습이 불가능하다는 상황에서 더욱 적합한 학습 방법입니다. 해당 방법론의 학습 과정은 lightweight decoding-time algorithm이라고 하는, decoding-time expert queation을 활용하여 base model의 prediction을 수정합니다. 즉 output logit 값을 이요하여 decoding 시 예측 확률을 수정하는 방법입니다. 또한 흥미로웠던 점은 full fine-tuning처럼 모델이 수많은 layer를 거치면서 학습하면 weight를 forgetting하는 issue가 있기에, output logit 즉 일부 layer만을 활용하는 decoding 학습 방법이 굉장히 유효하고 현실적이라고 생각하였습니다. LLM 학습 방법에 대해 평소에도 관심이 많았는데, 다양한 방법론에 대해 소개해주셔서 더욱 이해하기 쉬웠고 좋은 논문을 세미나로 발표해주셔서 감사합니다.


  • 2024-02-23 12:12

    이번 세미나에서는 “Tuning Language Models by Proxy”라는 연구에 대해 소개해 주셨습니다. 많은 연구들에서 언급되다시피 LLM은 다양한 Task들에서 높은 성능을 보이고 있습니다. (1) InstructGPT에서 사용되었던 RLHF, (2) RLHF와 달리 별도의 Reward Model을 사용하지 않고 LM에게 직접 Preference를 학습시키는 DPO, (3) 두 개 이상의 모델들을 Merge해서 사용하는 경우 등 Model Parameter를 업데이트하거나 기존 모델들의 높은 Downstream Task별 성능을 활용하고자 하는 연구들이 이어져왔습니다. 본 세미나에서 다루는 Proxy-tuning은 LLM Weight에 직접 접근하지 않고 Decoding 과정에서의 연산을 통해 모델의 생성 결과를 조정할 수 있는 방법론입니다. Contrastive Decoding이라는 연구에서 제안되었던 방법과 매우 유사한 구조를 보이고 있습니다. 학습을 하고싶은 대상 LLM이 있고, 추가적으로 7B과 같이 비교적 작은 sLLM을 특정 Downstream Task에 튜닝한 버전과 튜닝하지 않은 버전을 모두 이용해 이 세 모델 간의 Logit 값 간의 사칙 연산을 이용해 Token Generation을 수행합니다. Hallucination 완화 방법론에서도 Decoding 과정을 다룬 연구들이 조금 더 다양한 용도로 활용될 수 있지 않을까 생각을 했었기에 이번 세미나를 더욱 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2024-02-23 13:56

    금일 세미나는 "Tuning Language Models by Proxy" 논문을 중심으로 진행되었습니다. 이 논문은 light-weight decoding-time algorithm을 통해 LLM의 weight에 직접 접근할 수 없을 때에도 모델의 prediction 확률을 수정하는 방법을 제안하고 있습니다. 최근의 연구에서는 fine-tuning을 통해 원하는 task에 대한 성능 향상을 이루어낼 수 있지만, 모델의 weight가 공개되지 않은 경우 이 방법을 적용하기 어려운 한계가 있습니다. 이에 논문에서는 Expert model과 anti-expert model 사이의 logit 차이를 이용하여 logit offset을 계산하고, 이를 base model의 logit에 더하여 vocab distribution을 조정하여 모델의 prediction 확률을 조정합니다. 최근 llm 관련 연구들에서 토큰 생성확률이 제공되지 않는 gpt의 경우나 본 논문에서 제시한 것과 같이 weight가 제공되지 않는 경우에서도 원하는 동작을 할 수 있도록 만드는 여러가지 방법론들이, 주어진 환경에 부족함이 있더라도 해결할 방법이 있음을 일깨워주는 듯 합니다. 이러한 좋은 발표를 해주셔서 감사드립니다.


  • 2024-02-24 00:54

    금일 세미나는 'Tuning Language Models by Proxy' 논문을 소개해 주셨습니다. 해당 논문은 LLM weight에 직접적으로 접근하지 않더라도 모델을 조정할 수 있는 새로운 tuning 방법론을 제시한 논문이며 7B 크기의 proxy를 활용하더라도 70B 모델과의 성능 차이 88%를 해소할 수 있는 효과적인 방법을 제시하였습니다. 해당 논문에서는 모델의 weight에 직접적으로 접근할 수 없어 additional fine-tuning이 불가능한 경우를 지적하며 Black-box LM 위에서 작동하는 light-weight decoding time-algorithm인 Proxy-tuning을 기반으로 진행되고 있습니다. 구체적으로는 Proxy-tuning을 통해 Large pretrained model이 tuned model처럼 작동하도록 Expert model과 Anti-Expert model 사이의 logit을 활용하고 있습니다. 즉, Contrastive decoding과 유사하게 Small scale tuning results를 large base model에 비교하면서 logit 값 간의 연산으로 Token Generation을 수행하고 있으며 실험 결과로는 direct tuning과도 비교하였을 때 비슷한 결과를 보이며 task-specific tuning에서도 directly tuned 결과보다 약간 낮지만 확실히 base model 대비 성능 향상이 일어난 것을 통해 제안하는 방법론의 우수함을 입증하고 있습니다. 해당 논문에서 흥미로웠던 점은 Expert model과 Anti-Expert model이 같은 model family가 아니더라도 같은 vocab을 sharing하면 적용이 가능하며 fine-tuning에 대한 효율적인 대안을 제시했다라는 점에서 개인적으로 현재의 LLM 발전 방향에 맞는 합리적인 방향을 제시한 논문이라고 생각이 들었습니다. 발표자분의 개인적인 해석과 같이 해당 논문을 접할 수 있게 되어 논문을 해석하는 방법, 그리고 LLM tuning과 관련된 큰 흐름을 어렴풋이 알 수 있게 되어 너무나도 유익한 발표였습니다. 감사합니다!


  • 2024-02-24 17:22

    이번 세미나는 “Tuning Language Models by Proxy”으로 진행되었습니다. Proxy-tuning은 LLM weight를 직접 사용하지 않고 모델을 조정할 수 있는 tuning 방법론입니다. 즉, decoding-time expert equation을 활용하여 기존 모델의 prediction을 수정함으로써(예측 확률 분포 수정) 튜닝이 되는 방법입니다. 해당 방법은 작은 모델을 튜닝하여 heavily-tuned large model의 성능에 도달하는 것으로 llama 70B와 7B를 이용하여 해당 방법에 대해 실험을 하였을 때 88%의 차이를 극복함을 통해 효과성을 증명하였습니다. 해당 방법이 closed model의 튜닝을 대체할 수 있다는 것으로 앞서 언급된 문제점에 대한 솔루션으로 이해했습니다. 방법론에 대해 이해하다보니 probability distribution이 제공되어야 해당 방법이 적용가능하므로 closed model에 적용하기 어렵지만, llama 70B와 같이 큰 모델의 전체 파라미터를 학습하는 것 대신 small tuned model(7B)을 이용하여 적은 리소스로 full fine-tuning만큼의 성능을 내기 위한 방법으로 활용해야 한다는 점을 깨달았습니다. 앞서 background에서의 튜닝 흐름과 proxy-tuning을 쉽게 설명해주셔서 감사드립니다.


전체 513
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11144
관리자 2020.03.12 0 11144
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9785
관리자 2020.03.12 0 9785
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10866
관리자 2020.03.12 0 10866
510
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (5)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 78
Jaewon Cheon 2025.06.27 0 78
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 258
Minjeong Ma 2025.06.07 0 258
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 36
Minjeong Ma 2025.06.02 0 36
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 33
Kiyoon Jeong 2025.06.02 0 33
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 33
Woongchan Nam 2025.06.02 0 33
505
비밀글 [Rehearsal] 석사학위 논문심사 - 이상민 (21)
SangMin Lee | 2025.06.02 | 추천 0 | 조회 34
SangMin Lee 2025.06.02 0 34
504
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung | 2025.05.31 | 추천 0 | 조회 337
Siyul Sung 2025.05.31 0 337
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 323
Woojun Lee 2025.05.20 0 323
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 296
Jinwoo Park 2025.05.16 0 296
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im | 2025.05.15 | 추천 0 | 조회 286
Hun Im 2025.05.15 0 286

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호