논문 Overview
- Open-source LLM의 Forwarding 과정에서 최종 Layer 및 중간 Layer의 Token Probability 차이를 이용해 Factuality를 향상시키는 Decoding 방법론인 DoLa를 제안
- Information Retrieval 또는 Model Fine-tuning 없이 Model Forwarding 과정에서의 연산 수정을 통해 다양한 Task에서 Hallucination을 완화시킴
금일 세미나는 LLM의 할루시네이션을 완화하기 위한 방법론을 제안한 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models" 논문을 중심으로 진행되었습니다. DoLa는 학습 없이 이미 사전 학습된 LLM의 일부 레이어를 추론 과정에서 취사 선택함으로써 모델이 양질의 답변을 생성할 수 있는 재구성하는 방법론입니다. Amateur LM의 중간 레이어와 마지막 레이어의 token probabilty 분포의 차이를 활용하여 할루시네이션에 취약한 Amateur LM의 next token probability를 재조정함으로써 Factuailty를 향상시켰습니다. 이는 각 layer가 집중하는 token이 다르다는 분석 결과를 제시하며 비교적 factual ground가 강한 마지막 레이어와 약한 초반 레이어를 contrast하게 된다면 factual internal knowledge에 의존할 수 있다는 주장에서 근거한 것 입니다. DoLa 적용시 다양한 지표와 데이터 셋에서 Amateur LM의 성능이 크게 향상된 실험 결과 역시 제공되었습니다. Amateur LM의 치명적인 문제인 할루시네이션을 완화하기 위해 학습과 Retrieval을 사용하지 않고도 큰 성능 개선을 이루었다는 것이 인상적이었습니다. RAG와 함께 모델에 적용한다면 더욱 풍부한 Knowledge base를 기반으로 할루시네이션은 완화되고 전문성을 증대되는 효과가 있지 않을까 생각이 듭니다. 깔끔하고 자세한 자료 덕분에 이해하기 수월했습니다. 좋은 발표 감사합니다.
SangMin Lee
2024-01-30 21:28
해당 세미나는 홍성희 발표자님께서 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"라는 논문을 바탕으로 진행해주셨습니다. DoLa라는 방법론은, Forwarding 과정에서 중간 layer와 최종 layer의 token probability 차이를 이용해 decoding하는 방법론으로 일종의 contrastive decoding 방법론을 효율적으로 발전 시킨 구조입니다.세미나를 들으면서 든 생각은, bert의 구조를 분석했던 기존 논문들처럼 gpt-based LLM도 layer마다 집중하고 있는 포인트가 다르다고 생각했으며 이런 decoding 방식들이 layer 간 probability 차이를 이용하는 것도 앞선 이유라고 생각했습니다. 해당 구조는 factual hallucination을 향상시킨 것에 포커스를 두고 있지만, 해결하고자 하는 문제점에 대해 포커스를 두어 layer마다 선택하는 것이 향후 연구로 진행될 수 있지 않을까 생각했습니다. 트렌디하면서도 좋은 발표 준비해주셔서 감사합니다.
Woongchan Nam
2024-01-31 16:04
금일 세미나는 Hallucination을 완화하기 위한 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models라는 논문을 소개해 주셨습니다. 해당 논문에서 제안하는 DoLa는 Large LM과 Small LM의 Token Probability 차이를 이용해 Decoding하는 Contrastive Decoding 방법론을 기반으로 하고 있습니다. 다만, Transformer의 중간 Layer들을 사용한다는 점에서 특징을 가지고 있으며 Factual Knowledge를 예측할 때 JSD는 후반 Layer에서 높다라는 preliminary analysis를 기반으로 Final Layer와 가장 JSD가 차이가 큰 Premature layer와 contrast하여 Factual Internal Knowledge에 더 많이 의존할 수 있도록 Token Probability를 수정하는 방법을 제안하고 있습니다. 다만, Decoding Step마다 JSD 값이 가장 큰 Layer가 다르기 때문에 Dynamic하게 Premature Layer를 선택하고 있으며 Downstream task 적용 시에는 Layer들을 여러 개의 Bucket으로 나누어 validation한 후 선정된 Bucket 내에서 Premature Layer를 select하는 방법을 제안하고 있습니다. JSD를 계산하고 contrast하는 일련의 과정에서 Latency 실험 결과 또한 궁금했었는데 발표자분의 의견과 동일하게 효과성 대비 latency의 증가량이 미미하다고 생각하여 해당 논문이 인상적이었던 것 같습니다. 깔끔한 발표자료 구성, 많은 예시로 이해하기 더욱 수월하였으며 발표자분의 발표 역량에 많은 영감을 받았던 것 같습니다. 좋은 발표 감사합니다!
Jaehee Kim
2024-02-06 12:04
금일 세미나는 LLM의 Hallucination 문제를 완화하기 위한 decoding 방법론을 제안한 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"을 중심으로 진행되었습니다. LLM은 다양한 지식을 내부 파라미터에 저장하고 있는 것으로 널리 알려져있습니다. 하지만 이러한 지식을 온전히 활용하지 못하고, 잘못된 정보를 생성하는 Hallucination 문제가 발생합니다. 본 논문은 내부 파라미터에서 생성하기 어려운 지식과 관련된 entity들은 transformer block을 지나면서 지속적으로 다른 분포를 생성하는 점을 포착하였습니다. 이러한 현상을 활용하여 내부 지식을 활용한 hallucination을 완화하기 위해 내부 레이어와 최종 레이어 간 vocab 분포 차이를 이용하는 contrastive decoding 방법론을 제안합니다. 또한 이 과정에서 어떤 시점에서 어떤 레이어를 선택할지 자동화하기 위해 최종 레이어와 가장 큰 차이를 보이는 레이어를 premature 레이어로 정의하고 해당 레이어를 이용하는 방법론을 제안하고 있습니다. 이러한 논리 전개는 결국 최종 레이어에서 생성해야 할 옳바른 지식을 알고 있음에도, premature 레이어로부터 잘못된 정보가 지속적으로 흐르는 문제가 있다는 가정을 기반으로 합니다. 즉, premature 레이어가 hallucination의 주 원인임을 지적하고 premature 레이어의 정보를 삭제하는 방식의 디코딩이라 볼 수 있습니다. hallucianation 완화 연구들이 매우 지엽적이고 일반화하기 힘든 방법론을 제안하는 경우가 많은데, 해당 연구의 경우 매우 광범위한 활용이 가능하면서 기존 생성 성능을 유지하고 속도 측면의 손해가 매우 작다는 측면에서 흥미로운 연구라 생각됩니다. 좋은 발표 감사합니다.
Hun Im
2024-02-07 10:21
이번 세미나에서는 LLM에서 Hallucination 현상을 완화하기 위한 방법론인 DoLA를 제안하는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models에 대해 세미나를 진행해주셨습니다. DoLA는 최종 layer와 중간 layer의 token probability 차이를 이용해 Factuality를 향상 시키고자 합니다. 인상적인 부분은 사전 실험을 통해 저자들이 방법론에 대한 논리적 뒷 받침을 만든 부분입니다. 사전 실험에서 Factual knowledge가 필요한 Named Entity 또는 Date를 예측할 때 JSD는 후반 layer에서 매우 높음을 발견하며, 이를 통해 LLM은 후반 Layer에서도 prediction을 바꾸고 prediction에 Factual Knowledge를 주입하는 것으로 유추하고 있습니다. 또한 기능어를 예측하는 경우 중반 Layer에서의 JSD값이 매우 작은 것을 통해 중반 이후 Layer에서 output distribution이 크게 변하지 않은 것을 유추하고 있습니다. 개인적으로는 방법론 자체 보다는 사전 실험을 통해 기존 문제 해결과 방법론 제안을 위한 근거를 찾고 이를 기반으로 방법론을 제안함으로써 논리적인 힘을 갖도록 한 부분이 눈이 가는 연구와 발표였습니다. 발표 감사합니다!
Kiyoon Jeong
2024-02-07 17:02
이번 세미나에서 발표자께서는 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models" 논문에 대하여 설명을 해주셨습니다. 소개된 방법론은 Large Language Models의 Hallucination 문제를 해결하는 데 도움이 되는 것으로 내부 레이어와 최종 레이어의 토큰 확률 분포를 비교하여, 모델이 신뢰할 수 있는 답변을 생성할 수 있도록 하였습니다 . 특히, 사전 실험을 통해 이러한 방법론의 타당성을 입증한 것은 제안한 방법론만큼이나 논문의 훌륭한 점이라 생각됩니다. hallucination이 어떠한 방식으로 생길 수 있는지를 밝히면서 이를 해결하는 방법을 함께 제공함으로써 Large Language Models의 성능 향상과 신뢰성 확보에 기여할 것으로 기대됩니다. 좋은 발표 감사드립니다!
Jiyoon Lee
2024-02-07 17:41
이번 세미나에서는 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"에 대해 소개해주셨습니다. DoLa는 여러 transformer layer를 거친 최종 마지막 vocabulary head만을 사용하여 next token prediction을 수행하는 기존 방법과 달리, 초기와 중간 layer의 값도 early exit하여 여러 값을 통한 보다 최적의 probability를 계산해보자는 아이디어를 갖고 있는 방법론입니다. 이전 layer들 중에 final layer 즉 Mature layer의 next token probability와 가장 차이가 큰 layer를 가져와서 두 layer의 information을 contrast하게 되며, 이는 JSD가 클 수록 두 layer가 갖는 값의 차이가 커진다는 특징을 가집니다. 이러한 중간 layer 즉, premature layer는 모델의 전체 layer를 2-4개의 bucket으로 나누고 bucket 마다의 최적 layer를 선택하여 이들 중 가장 우수한 bucket을 기반으로 layer selection을 진행합니다. 특히나 해당 논문에서는 방법론 소개에 앞서 Preliminary analysis를 수행하고 있는데, JSD를 계산하였을 때 후반 layer에서도 높게 나타나는 점에 대해 언급하며 전체 layer 중 JSD 값이 급격히 변한 전/후 layer를 contrast 해보는 것에 대한 motivation 및 근거를 제공하고 있다는 점이 흥미로웠습니다. 항상 장표 구성에 신경을 많이 써주셔서 이해에 큰 도움이 되는 것 같습니다. 좋은 발표 감사드립니다.
Jinwoo Park
2024-02-07 18:05
금일 세미나는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models 논문을 바탕으로 진행되었습니다. 해당 논문은 발표자분이 지속적으로 연구해오신 LLM의 Hallucination에 관한 문제를 해결하고자 방법을 제시하고 있습니다. LLM은 꾸준한 성능 향상 및 여러 Safety관련 장치에도 불구하고, Hallucination을 생성하는 경향이 있습니다. 이러한 문제는 Factuality가 중요한 분야일수록 큰 문제를 야기할 수 있기 때문에, 꼭 해결해야 하는 문제라고 생각할 수 있습니다. 이를 해결하고자, 해당 논문에서 제시하는 방법론인 DoLa에서는 Early Exit를 이용하고 있습니다. 기존 모델들에서는 모든 Transformer layer를 거쳐서 나온 최종 Output을 Head에 태워 결과를 산출한다면, DoLa에서는 중간 Transformer Layer의 Output을 함께 이용합니다. 이때, Final Layer의 Next token Probability와 가장 차이가 큰 Layer를 Premature Layer라고 칭하여, 해당 Layer의 결과를 도출하여, Contrasting 방법을 이용합니다. 즉, 기존 최종 Output Layer인 Mature Layer의 영향력을 최대화 시키며, Premature Layer를 최소화 시키는 것을 목적으로 Early Exit를 사용하게 됩니다. 결론적으로, 이러한 방법으로 Information Retrieval이나 Model fine-tuning 없이 다양한 Task에서 Truthfulness를 향상 시키고 있습니다. 좋은 발표 정말 감사드립니다.
Hyeongwon Kang
2024-02-07 20:23
이번 세미나는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models를 주제로 진행되었습니다. 본 논문에서 제안하는 DoLa는 hallucination을 완화하는데 초점을 두고 있습니다. 제안하는 방법론은 최종 layer의 output만을 활용하는 것이 아닌 중간 layer에서의 token probability를 같이 활용하여 factual internal knowledge에 더 의존하고자 합니다. 중간 layer를 선택할 때에는 final layer와 jensen-shannon divergence를 사용하여 차이가 가장 큰 layer를 선택합니다. 디코딩 스텝마다 distance를 통해 layer를 선택하게 되며 downstream task 시에는 layer들을 bucket으로 나누어 최적의 bucket 내에서 선택하는 효율적인 방법 또한 제안하고 있습니다. 기존에 여러 연구들에서 중간 layer의 정보들을 활용하는 경우는 많았었는데 단순히 중간 layer의 결과를 사용하는 것이 아닌 factual knowledge 관점에서 분석을 수행하여 왜 중간 결과를 같이 사용하는 것이 좋은지 설명하는 과정들이 인상 깊었습니다. 좋은 발표 감사합니다.
Doyoon Kim
2024-02-08 19:21
이번 세미나에서는 Large Language Model(LLM) 활용에 있어 Hallucination 현상을 감소 하기 위한 테크닉인 Contrastive Decoding에 관하여 소개되었습니다. 자세히 살펴보자면, LLM과 일반적인 LM의 토큰 생성 확률의 차이를 이용해 decoding 하는 것을 뜻합니다. 이에 확률의 차이가 많이 나는 토큰을 최종 생성 토큰으로 선정하는 방식입니다. 허나 이 방식을 취하기 위해서는 필연적으로 크기가 확연히 차이는 두 모델이 필요합니다. 따라서 소개해주신 방법론 DoLA(Decoding by Contrasting Layers)는 하나의 큰 모델, 가령 LLaMA와 같은 모델 내 위치한 중간 layer에서의 산출물을 앞서 언급한 크기가 작은 언어모델의 산출물 또는 premature layer로 간주하고 마지막 즈음에 위치한 layer들에서 나온 산출물을 이를 테면 mature layer의 결과물로 취급하여 contrastive decoding을 진행합니다. 추가로 log를 취한 확률의 차이를 단순히 이용하는 것이 아니라 약간의 식변형을 주어 mature layer의 영향력은 높이고 반대로 premature layer의 영향력은 감소시킵니다. 결과적으로 이는 하나의 기법이기에 다른 LLM에서도 똑같이 적용되는지 실험을 통해 확인이 되면 좋을 것 같습니다. 흥미로운 주제 소개해주셔서 감사합니다.
Jungho Lee
2024-02-08 23:20
이번 세미나는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models를 주제로 진행되었습니다. 본 논문에서는 hallucination 완화하기 위한 새로운 Decoding 방법론인 DoLa를 제안하였고, 레이거 사이의 output 의 contrative learning 을 진행하는 것이 주요 특징입니다. 이를 통해 Token probability 를 수정하는데 이는 각 layer 에서 나타내고자 하는 특징이 다른 것을 반영하여, 극단적으로 잘못 생성되는 token 을 막아주는 역할로 생각됩니다. 사실 이게 의미있나 라는 생각이 먼저 들었지만, 실험에서 가설과 각 layer 의 결과 값을 도표로 정리하여 시작하는 점이 이와같은 의문점을 해소시켜주며, 왜 해당 방법이 의미있는지를 보여주는 구성이였습니다. 개인적으로 어떠한 과정에서 해당 방식을 구현하게 되었는지 궁금하며, 논문 및 연구시 참고할만한 좋은 예시같았습니다,
Woojun Lee
2024-02-08 23:58
이번 세미나에선 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models이라는 논문을 주제로 진행되었습니다. DoLa 방법론은 Large Language Models에서 발생할 수 있는 factual errors를 줄이기 위해 고안된 새로운 접근 방식입니다. 이 방법은 특히 transformer 기반 모델의 다양한 레이어 간의 output 차이를 활용하여, decoding 과정에서의 factuality를 향상시키는 것을 목표로 하여 hallucination 문제를 완화시킵니다. 해당 연구에서의 실험 결과를 통해 제안된 방법론이 단지 hallucination 문제를 완화하는 것뿐만 아니라, 모델이 더 정확하고 신뢰할 수 있는 정보를 생성할 수 있도록 돕는다는 것을 알 수 있었습니다. 매번 LLM에 있어 hallucination 에 관련한 재밌는 연구들 소개해주셔서 감사합니다. 좋은 발표 감사합니다.
Minjeong Ma
2024-02-11 17:35
이번 세미나에서는 Large Language Models(LLM)의 Hallucination 문제에 대응하는 새로운 접근법에 대한 “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models" 라는 논문에 대해 발표해 주셨습니다. DoLa는 사전 학습된 언어 모델의 레이어를 동적으로 조정하여, Hallucination 현상을 줄이고 Factuality을 높이는 기법입니다. 이 방법은 특히 언어 모델의 중간 레이어와 최종 레이어 사이의 토큰 확률 분포 차이를 이용함으로써, 다른 접근 방식에 비해 추가적인 학습이나 데이터 검색 없이도 Hallucination을 줄일 수 있다는 점에서 매우 큰 Contribution을 갖습니다. 이러한 접근 방식은 언어 모델이 내재적으로 가지고 있는 지식을 더욱 효과적으로 활용할 수 있도록 합니다. 해당 방법론은 언어 모델의 내부 메커니즘을 깊이 이해하고 이를 기반으로 Hallucination 문제에 접근한다는 점에서, 기존의 단순한 외부적 조정이나 데이터 조정 방식을 넘어섭니다. 또한 Factuality을 향상시키는 동시에, 모델의 일반화 능력이나 다양한 태스크에 대한 적용 가능성을 손상시키지 않는다는 점에서, 실용적인 가치가 높습니다. 이는 구현이 상대적으로 간단하면서도 효과적이라 실제 응용 분야에서의 적용이 용이할 것으로 보입니다. 이번 세미나를 통해 단순히 새로운 기술적 접근법을 넘어서, Large Language Models의 잠재력을 극대화하는 방법에 대한 근본적인 이해를 할 수 있었습니다. 특히, DoLa는 모델이 내재적으로 가지고 있는 지식을 더 효과적으로 활용할 수 있는 방법을 제시함으로써, 향후 더욱 많은 발전 가능성을 보였다고 생각합니다. 좋은 발표 해주셔서 감사합니다.
Saeran Park
2024-02-14 20:16
이번 세미나에서는 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"라는 논문에 대한 소개가 이루어졌습니다. DoLa는 사전 학습된 언어 모델의 레이어를 동적으로 조정하여 Hallucination을 줄이고 Factuality을 향상시키는 방법을 제안하고 있습니다. 이 방법은 중간 레이어와 최종 레이어 사이의 토큰 확률 분포 차이를 활용하여 Hallucination을 줄일 수 있는데, 이는 추가적인 학습이나 데이터 검색 없이도 가능합니다. 해당 방법은 Factual Knowledge를 향상시키며 모델이 generalization 능력이 향상된다는 점에서 두마리 토끼를 잡은 방법이라 느낄 수 있습니다. latecy 측면에서도 효과성 대비 latency 증가량이 미미하다는 점에서 매우 유용하다고 볼 수 있습니다. 좋은 발표 감사합니다.
금일 세미나는 LLM의 할루시네이션을 완화하기 위한 방법론을 제안한 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models" 논문을 중심으로 진행되었습니다. DoLa는 학습 없이 이미 사전 학습된 LLM의 일부 레이어를 추론 과정에서 취사 선택함으로써 모델이 양질의 답변을 생성할 수 있는 재구성하는 방법론입니다. Amateur LM의 중간 레이어와 마지막 레이어의 token probabilty 분포의 차이를 활용하여 할루시네이션에 취약한 Amateur LM의 next token probability를 재조정함으로써 Factuailty를 향상시켰습니다. 이는 각 layer가 집중하는 token이 다르다는 분석 결과를 제시하며 비교적 factual ground가 강한 마지막 레이어와 약한 초반 레이어를 contrast하게 된다면 factual internal knowledge에 의존할 수 있다는 주장에서 근거한 것 입니다. DoLa 적용시 다양한 지표와 데이터 셋에서 Amateur LM의 성능이 크게 향상된 실험 결과 역시 제공되었습니다. Amateur LM의 치명적인 문제인 할루시네이션을 완화하기 위해 학습과 Retrieval을 사용하지 않고도 큰 성능 개선을 이루었다는 것이 인상적이었습니다. RAG와 함께 모델에 적용한다면 더욱 풍부한 Knowledge base를 기반으로 할루시네이션은 완화되고 전문성을 증대되는 효과가 있지 않을까 생각이 듭니다. 깔끔하고 자세한 자료 덕분에 이해하기 수월했습니다. 좋은 발표 감사합니다.
해당 세미나는 홍성희 발표자님께서 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"라는 논문을 바탕으로 진행해주셨습니다. DoLa라는 방법론은, Forwarding 과정에서 중간 layer와 최종 layer의 token probability 차이를 이용해 decoding하는 방법론으로 일종의 contrastive decoding 방법론을 효율적으로 발전 시킨 구조입니다.세미나를 들으면서 든 생각은, bert의 구조를 분석했던 기존 논문들처럼 gpt-based LLM도 layer마다 집중하고 있는 포인트가 다르다고 생각했으며 이런 decoding 방식들이 layer 간 probability 차이를 이용하는 것도 앞선 이유라고 생각했습니다. 해당 구조는 factual hallucination을 향상시킨 것에 포커스를 두고 있지만, 해결하고자 하는 문제점에 대해 포커스를 두어 layer마다 선택하는 것이 향후 연구로 진행될 수 있지 않을까 생각했습니다. 트렌디하면서도 좋은 발표 준비해주셔서 감사합니다.
금일 세미나는 Hallucination을 완화하기 위한 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models라는 논문을 소개해 주셨습니다. 해당 논문에서 제안하는 DoLa는 Large LM과 Small LM의 Token Probability 차이를 이용해 Decoding하는 Contrastive Decoding 방법론을 기반으로 하고 있습니다. 다만, Transformer의 중간 Layer들을 사용한다는 점에서 특징을 가지고 있으며 Factual Knowledge를 예측할 때 JSD는 후반 Layer에서 높다라는 preliminary analysis를 기반으로 Final Layer와 가장 JSD가 차이가 큰 Premature layer와 contrast하여 Factual Internal Knowledge에 더 많이 의존할 수 있도록 Token Probability를 수정하는 방법을 제안하고 있습니다. 다만, Decoding Step마다 JSD 값이 가장 큰 Layer가 다르기 때문에 Dynamic하게 Premature Layer를 선택하고 있으며 Downstream task 적용 시에는 Layer들을 여러 개의 Bucket으로 나누어 validation한 후 선정된 Bucket 내에서 Premature Layer를 select하는 방법을 제안하고 있습니다. JSD를 계산하고 contrast하는 일련의 과정에서 Latency 실험 결과 또한 궁금했었는데 발표자분의 의견과 동일하게 효과성 대비 latency의 증가량이 미미하다고 생각하여 해당 논문이 인상적이었던 것 같습니다. 깔끔한 발표자료 구성, 많은 예시로 이해하기 더욱 수월하였으며 발표자분의 발표 역량에 많은 영감을 받았던 것 같습니다. 좋은 발표 감사합니다!
금일 세미나는 LLM의 Hallucination 문제를 완화하기 위한 decoding 방법론을 제안한 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"을 중심으로 진행되었습니다. LLM은 다양한 지식을 내부 파라미터에 저장하고 있는 것으로 널리 알려져있습니다. 하지만 이러한 지식을 온전히 활용하지 못하고, 잘못된 정보를 생성하는 Hallucination 문제가 발생합니다. 본 논문은 내부 파라미터에서 생성하기 어려운 지식과 관련된 entity들은 transformer block을 지나면서 지속적으로 다른 분포를 생성하는 점을 포착하였습니다. 이러한 현상을 활용하여 내부 지식을 활용한 hallucination을 완화하기 위해 내부 레이어와 최종 레이어 간 vocab 분포 차이를 이용하는 contrastive decoding 방법론을 제안합니다. 또한 이 과정에서 어떤 시점에서 어떤 레이어를 선택할지 자동화하기 위해 최종 레이어와 가장 큰 차이를 보이는 레이어를 premature 레이어로 정의하고 해당 레이어를 이용하는 방법론을 제안하고 있습니다. 이러한 논리 전개는 결국 최종 레이어에서 생성해야 할 옳바른 지식을 알고 있음에도, premature 레이어로부터 잘못된 정보가 지속적으로 흐르는 문제가 있다는 가정을 기반으로 합니다. 즉, premature 레이어가 hallucination의 주 원인임을 지적하고 premature 레이어의 정보를 삭제하는 방식의 디코딩이라 볼 수 있습니다. hallucianation 완화 연구들이 매우 지엽적이고 일반화하기 힘든 방법론을 제안하는 경우가 많은데, 해당 연구의 경우 매우 광범위한 활용이 가능하면서 기존 생성 성능을 유지하고 속도 측면의 손해가 매우 작다는 측면에서 흥미로운 연구라 생각됩니다. 좋은 발표 감사합니다.
이번 세미나에서는 LLM에서 Hallucination 현상을 완화하기 위한 방법론인 DoLA를 제안하는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models에 대해 세미나를 진행해주셨습니다. DoLA는 최종 layer와 중간 layer의 token probability 차이를 이용해 Factuality를 향상 시키고자 합니다. 인상적인 부분은 사전 실험을 통해 저자들이 방법론에 대한 논리적 뒷 받침을 만든 부분입니다. 사전 실험에서 Factual knowledge가 필요한 Named Entity 또는 Date를 예측할 때 JSD는 후반 layer에서 매우 높음을 발견하며, 이를 통해 LLM은 후반 Layer에서도 prediction을 바꾸고 prediction에 Factual Knowledge를 주입하는 것으로 유추하고 있습니다. 또한 기능어를 예측하는 경우 중반 Layer에서의 JSD값이 매우 작은 것을 통해 중반 이후 Layer에서 output distribution이 크게 변하지 않은 것을 유추하고 있습니다. 개인적으로는 방법론 자체 보다는 사전 실험을 통해 기존 문제 해결과 방법론 제안을 위한 근거를 찾고 이를 기반으로 방법론을 제안함으로써 논리적인 힘을 갖도록 한 부분이 눈이 가는 연구와 발표였습니다. 발표 감사합니다!
이번 세미나에서 발표자께서는 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models" 논문에 대하여 설명을 해주셨습니다. 소개된 방법론은 Large Language Models의 Hallucination 문제를 해결하는 데 도움이 되는 것으로 내부 레이어와 최종 레이어의 토큰 확률 분포를 비교하여, 모델이 신뢰할 수 있는 답변을 생성할 수 있도록 하였습니다 . 특히, 사전 실험을 통해 이러한 방법론의 타당성을 입증한 것은 제안한 방법론만큼이나 논문의 훌륭한 점이라 생각됩니다. hallucination이 어떠한 방식으로 생길 수 있는지를 밝히면서 이를 해결하는 방법을 함께 제공함으로써 Large Language Models의 성능 향상과 신뢰성 확보에 기여할 것으로 기대됩니다. 좋은 발표 감사드립니다!
이번 세미나에서는 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"에 대해 소개해주셨습니다. DoLa는 여러 transformer layer를 거친 최종 마지막 vocabulary head만을 사용하여 next token prediction을 수행하는 기존 방법과 달리, 초기와 중간 layer의 값도 early exit하여 여러 값을 통한 보다 최적의 probability를 계산해보자는 아이디어를 갖고 있는 방법론입니다. 이전 layer들 중에 final layer 즉 Mature layer의 next token probability와 가장 차이가 큰 layer를 가져와서 두 layer의 information을 contrast하게 되며, 이는 JSD가 클 수록 두 layer가 갖는 값의 차이가 커진다는 특징을 가집니다. 이러한 중간 layer 즉, premature layer는 모델의 전체 layer를 2-4개의 bucket으로 나누고 bucket 마다의 최적 layer를 선택하여 이들 중 가장 우수한 bucket을 기반으로 layer selection을 진행합니다. 특히나 해당 논문에서는 방법론 소개에 앞서 Preliminary analysis를 수행하고 있는데, JSD를 계산하였을 때 후반 layer에서도 높게 나타나는 점에 대해 언급하며 전체 layer 중 JSD 값이 급격히 변한 전/후 layer를 contrast 해보는 것에 대한 motivation 및 근거를 제공하고 있다는 점이 흥미로웠습니다. 항상 장표 구성에 신경을 많이 써주셔서 이해에 큰 도움이 되는 것 같습니다. 좋은 발표 감사드립니다.
금일 세미나는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models 논문을 바탕으로 진행되었습니다. 해당 논문은 발표자분이 지속적으로 연구해오신 LLM의 Hallucination에 관한 문제를 해결하고자 방법을 제시하고 있습니다. LLM은 꾸준한 성능 향상 및 여러 Safety관련 장치에도 불구하고, Hallucination을 생성하는 경향이 있습니다. 이러한 문제는 Factuality가 중요한 분야일수록 큰 문제를 야기할 수 있기 때문에, 꼭 해결해야 하는 문제라고 생각할 수 있습니다. 이를 해결하고자, 해당 논문에서 제시하는 방법론인 DoLa에서는 Early Exit를 이용하고 있습니다. 기존 모델들에서는 모든 Transformer layer를 거쳐서 나온 최종 Output을 Head에 태워 결과를 산출한다면, DoLa에서는 중간 Transformer Layer의 Output을 함께 이용합니다. 이때, Final Layer의 Next token Probability와 가장 차이가 큰 Layer를 Premature Layer라고 칭하여, 해당 Layer의 결과를 도출하여, Contrasting 방법을 이용합니다. 즉, 기존 최종 Output Layer인 Mature Layer의 영향력을 최대화 시키며, Premature Layer를 최소화 시키는 것을 목적으로 Early Exit를 사용하게 됩니다. 결론적으로, 이러한 방법으로 Information Retrieval이나 Model fine-tuning 없이 다양한 Task에서 Truthfulness를 향상 시키고 있습니다. 좋은 발표 정말 감사드립니다.
이번 세미나는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models를 주제로 진행되었습니다. 본 논문에서 제안하는 DoLa는 hallucination을 완화하는데 초점을 두고 있습니다. 제안하는 방법론은 최종 layer의 output만을 활용하는 것이 아닌 중간 layer에서의 token probability를 같이 활용하여 factual internal knowledge에 더 의존하고자 합니다. 중간 layer를 선택할 때에는 final layer와 jensen-shannon divergence를 사용하여 차이가 가장 큰 layer를 선택합니다. 디코딩 스텝마다 distance를 통해 layer를 선택하게 되며 downstream task 시에는 layer들을 bucket으로 나누어 최적의 bucket 내에서 선택하는 효율적인 방법 또한 제안하고 있습니다. 기존에 여러 연구들에서 중간 layer의 정보들을 활용하는 경우는 많았었는데 단순히 중간 layer의 결과를 사용하는 것이 아닌 factual knowledge 관점에서 분석을 수행하여 왜 중간 결과를 같이 사용하는 것이 좋은지 설명하는 과정들이 인상 깊었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Large Language Model(LLM) 활용에 있어 Hallucination 현상을 감소 하기 위한 테크닉인 Contrastive Decoding에 관하여 소개되었습니다. 자세히 살펴보자면, LLM과 일반적인 LM의 토큰 생성 확률의 차이를 이용해 decoding 하는 것을 뜻합니다. 이에 확률의 차이가 많이 나는 토큰을 최종 생성 토큰으로 선정하는 방식입니다. 허나 이 방식을 취하기 위해서는 필연적으로 크기가 확연히 차이는 두 모델이 필요합니다. 따라서 소개해주신 방법론 DoLA(Decoding by Contrasting Layers)는 하나의 큰 모델, 가령 LLaMA와 같은 모델 내 위치한 중간 layer에서의 산출물을 앞서 언급한 크기가 작은 언어모델의 산출물 또는 premature layer로 간주하고 마지막 즈음에 위치한 layer들에서 나온 산출물을 이를 테면 mature layer의 결과물로 취급하여 contrastive decoding을 진행합니다. 추가로 log를 취한 확률의 차이를 단순히 이용하는 것이 아니라 약간의 식변형을 주어 mature layer의 영향력은 높이고 반대로 premature layer의 영향력은 감소시킵니다. 결과적으로 이는 하나의 기법이기에 다른 LLM에서도 똑같이 적용되는지 실험을 통해 확인이 되면 좋을 것 같습니다. 흥미로운 주제 소개해주셔서 감사합니다.
이번 세미나는 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models를 주제로 진행되었습니다. 본 논문에서는 hallucination 완화하기 위한 새로운 Decoding 방법론인 DoLa를 제안하였고, 레이거 사이의 output 의 contrative learning 을 진행하는 것이 주요 특징입니다. 이를 통해 Token probability 를 수정하는데 이는 각 layer 에서 나타내고자 하는 특징이 다른 것을 반영하여, 극단적으로 잘못 생성되는 token 을 막아주는 역할로 생각됩니다. 사실 이게 의미있나 라는 생각이 먼저 들었지만, 실험에서 가설과 각 layer 의 결과 값을 도표로 정리하여 시작하는 점이 이와같은 의문점을 해소시켜주며, 왜 해당 방법이 의미있는지를 보여주는 구성이였습니다. 개인적으로 어떠한 과정에서 해당 방식을 구현하게 되었는지 궁금하며, 논문 및 연구시 참고할만한 좋은 예시같았습니다,
이번 세미나에선 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models이라는 논문을 주제로 진행되었습니다. DoLa 방법론은 Large Language Models에서 발생할 수 있는 factual errors를 줄이기 위해 고안된 새로운 접근 방식입니다. 이 방법은 특히 transformer 기반 모델의 다양한 레이어 간의 output 차이를 활용하여, decoding 과정에서의 factuality를 향상시키는 것을 목표로 하여 hallucination 문제를 완화시킵니다. 해당 연구에서의 실험 결과를 통해 제안된 방법론이 단지 hallucination 문제를 완화하는 것뿐만 아니라, 모델이 더 정확하고 신뢰할 수 있는 정보를 생성할 수 있도록 돕는다는 것을 알 수 있었습니다. 매번 LLM에 있어 hallucination 에 관련한 재밌는 연구들 소개해주셔서 감사합니다. 좋은 발표 감사합니다.
이번 세미나에서는 Large Language Models(LLM)의 Hallucination 문제에 대응하는 새로운 접근법에 대한 “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models" 라는 논문에 대해 발표해 주셨습니다. DoLa는 사전 학습된 언어 모델의 레이어를 동적으로 조정하여, Hallucination 현상을 줄이고 Factuality을 높이는 기법입니다. 이 방법은 특히 언어 모델의 중간 레이어와 최종 레이어 사이의 토큰 확률 분포 차이를 이용함으로써, 다른 접근 방식에 비해 추가적인 학습이나 데이터 검색 없이도 Hallucination을 줄일 수 있다는 점에서 매우 큰 Contribution을 갖습니다. 이러한 접근 방식은 언어 모델이 내재적으로 가지고 있는 지식을 더욱 효과적으로 활용할 수 있도록 합니다. 해당 방법론은 언어 모델의 내부 메커니즘을 깊이 이해하고 이를 기반으로 Hallucination 문제에 접근한다는 점에서, 기존의 단순한 외부적 조정이나 데이터 조정 방식을 넘어섭니다. 또한 Factuality을 향상시키는 동시에, 모델의 일반화 능력이나 다양한 태스크에 대한 적용 가능성을 손상시키지 않는다는 점에서, 실용적인 가치가 높습니다. 이는 구현이 상대적으로 간단하면서도 효과적이라 실제 응용 분야에서의 적용이 용이할 것으로 보입니다. 이번 세미나를 통해 단순히 새로운 기술적 접근법을 넘어서, Large Language Models의 잠재력을 극대화하는 방법에 대한 근본적인 이해를 할 수 있었습니다. 특히, DoLa는 모델이 내재적으로 가지고 있는 지식을 더 효과적으로 활용할 수 있는 방법을 제시함으로써, 향후 더욱 많은 발전 가능성을 보였다고 생각합니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나에서는 "DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models"라는 논문에 대한 소개가 이루어졌습니다. DoLa는 사전 학습된 언어 모델의 레이어를 동적으로 조정하여 Hallucination을 줄이고 Factuality을 향상시키는 방법을 제안하고 있습니다. 이 방법은 중간 레이어와 최종 레이어 사이의 토큰 확률 분포 차이를 활용하여 Hallucination을 줄일 수 있는데, 이는 추가적인 학습이나 데이터 검색 없이도 가능합니다. 해당 방법은 Factual Knowledge를 향상시키며 모델이 generalization 능력이 향상된다는 점에서 두마리 토끼를 잡은 방법이라 느낄 수 있습니다. latecy 측면에서도 효과성 대비 latency 증가량이 미미하다는 점에서 매우 유용하다고 볼 수 있습니다. 좋은 발표 감사합니다.