Seminar

BOARD

[Paper Review] Improving Language Models by Retrieving from Trillions of Tokens

Paper Review

작성자

Takyoung Kim

작성일

2022-04-11 18:11

조회

3129

Topic
Recent Language Model
Overview
언어모델의 크기가 점점 커지면서 많은 상황에서 좋은 성능을 보이고 있지만 그만큼 많은 비용을 부담해야 하는 문제가 발생했습니다.
이를 완화하기 위해 모델 외부의 knowledge base (database)로부터 필요한 정보를 검색하여 학습에 반영하는 semi-parametric method가 주목을 받고 있습니다.
본 논문에서 소개하는 RETRO 모델은 encoder-decoder 모델을 구축할 때 조(trillion) 단위의 외부 database를 사용하여 초거대모델에 비해 파라미터를 절약하면서도 뛰어난 성능을 보입니다.
세미나에서는 semi-parametric method에 대한 기본 개념, RETRO 모델 구조, 그리고 RETRO 이후 최신 언어모델 동향에 대해 소개합니다.
발표자료 및 발표영상
발표자료[link]
발표영상 :
참고문헌
- Improving language models by retrieving from trillions of tokens (2022)
- WebGPT: Browser-assisted question-answering with human feedback (2022)
- Training Compute-Optimal Large Language Models (2022)
- PaLM: Scaling Language Modeling with Pathways (2022)

전체 21

Hoonsang Yoon

2022-04-12 14:27

본 세미나에서는 QA Task에서 Question에 연관된 문서를 탐색하는 Retrieval을 통해 언어 모델의 성능을 향상 시켜, QA를 포함한 Knowledge-Intensive Task의 성능을 향상 시킨 Retrieval-Enhanced Transformer를 소개해주셨습니다. RETRO의 좋은 성능과 가벼운 무게의 비결은 알고있는 모든 것을 매개변수에 인코딩하는 GPT-3와 달리, 지식 정보를 저장하는 뉴럴 데이터베이스를 따로 두어, 특정 지식이 필요할 때 데이터 베이스를 검색해 정보를 가져와 문장 생성에 활용하기 때문입니다. ‘RE Transformer’이기 때문에 전체적인 구조는 Transformer이며, Query에 연관된 문장을 찾기 위해 KNN Retriever를 활용합니다. 이를 Transformer의 Q, K, V로 활용하며, 연산 효율성을 위해 문장 Token들의 구역을 나누어 Chunk로 분할하여 계산합니다. 이런 방식을 통해 Jurrasic-1, Gopher와 같이 파라미터 개수가 매우 큰 모델들에 비해 적은 파라미터로 Downstream Task에서 높은 성능을 나타냈습니다. 현재 RETRO는 Query에 유사한 문장들만을 검색하는 모습을 보였는데, 반대되는 문장 역시 훈련에 포함시키는 Contrastive Learning을 연산 과정에 포함시키면 어떨까 라는 생각이 듭니다. 언제나 좋은 발표 감사합니다.
Suzie Oh

2022-04-12 15:00

이번 세미나는 언어 모델의 크기가 커질수록 성능은 좋아지지만 그만큼 많은 양의 파라미터를 학습하는데 소요되는 비용 문제를 완화하기 위해 거대한 외부 retrieval dataset의 정보를 활용하는 “Improving Language Models by Retrieving from Trillions of Tokens”(이하 RETRO) 논문으로 진행되었습니다. non-parametric memory는 모델의 학습 과정에 종속적이지 않으므로 학습된 모델과 상관없이 업데이트가 가능하며 결과물에 대한 해석이 가능하다는 장점이 있습니다. high-level에서 RETRO를 이해해보는건 비교적 쉬운데 input sequence가 주어졌을 때, 거대한 외부 데이터베이스에서 input sequence와 가장 유사한 문서를 검색하고, 이들을 input sequence 대신 RETRO의 입력으로 주어 output sequence를 출력하는 방식입니다. 여기서 검색된 문서들을 논문에선 input을 증강시킨 느낌으로 이야기하였다고 합니다. 모델의 기본 구조는 Transformer를 베이스로 하고 있으며, encoder는 input sequence와 가까운 text chunk를 검색하여 augmented encoder input으로 활용하고, decoder는 Input sequence embedding과 retrieved embedding 간 chunked cross-attention을 수행하는 구조로 되어있습니다. 교수님께서 세미나 중 질문주신 것처럼 왜 Input sequence의 이웃을 구할 때 일반적으로 사용되는 코사인 유사도가 아닌 Knn을 활용했는지, 코사인 유사도를 활용하면 성능에 어떤 변화가 있을지는 추가적으로 탐색해보면 좋을 것 같다는 생각이 듭니다. 마지막으로 발표 마지막에 소개해주신 OpenAI와 DeepMind, Google의 최신 논문만 봐도 요즘엔 정말 하루가 멀다하고 새로운 기술이 쏟아지고 있는 것 같습니다. 이러한 기술의 발전이 좋으면서도 공부를 하는 입장으로써 왠지 부담이 되는.. 복잡미묘한 감정이 드는 발표였던 것 같습니다. 유익한 발표 감사드립니다.
Jungho Lee

2022-04-12 15:33

금일세미나에서는 Knowledge based database 에서 추출된 정보를 기반으로 학습파라메터를 효율적으로 다루는 방법론에 대해 진행되었습니다. 우선 항상 대용량의 데이터셋을 다룰 때, 의문이 드는 것은 수만은 데이터셋에서 KNN 계산 자체가 연산이 많이 소요될 것 같은데, 학습단계에서 큰 문제가 없는지 궁금합니다. 본 세미나에서 가장 인상깊었던것은 Chunked cross attention(CCA) 입니다. 저자들의 인용을 따르면, 개별 Chunk 가 검색된 이웃에 개별적으로 attention 이 걸리기 때문에, 인과관계를 설명할 수 있다고 합니다. 그리고 임베딩 벡터에서 일정한 규칙으로 끝부분과 앞부분을 의도적으로 합친 것 같은데, NLP 의 특징상 두 문장(TOKEN) 의 연결시 맥락이 이어지는 특징을 반영하기 위함이지 않았나 생각합니다. 이러한 효과 외에도, 전체 Self attention 에서 quad 연산의 부담을 분할하여 계산하기 때문에 매우 줄일수 있는 특징이 있습니다. 처음보는 모델구조였는데, 이러한 구조를 생각해낸 과정이 선실험,후해석인지, 혹은 의도를 생각하고 모델을 만든건지에 대한 궁금증이 있습니다. 재밌는 발표 잘 들었습니다. 감사합니다.
Jeongseob Kim

2022-08-03 07:47

본 세미나는 Improving Language Models by Retrieving from Trillions of Tokens연구에 대해 진행되었습니다. 본 연구는 매우 실용적인 관점의 니즈에서 출발한 듯 보입니다. 대용량의 언어모델을 활용함에 있어, 그 비용을 최소화하기 위한 방안으로 외부의 knowledge base (database)를 적극 활용하고자 합니다. 이러한 접근을 non-parameteric learning이라 지칭하기도 합니다. 지식이 축적될 수록 모델도 함께 더욱 방대해지는 것을 방지할 수 있어, 매우 효율적인 접근이라 생각합니다. 발표자 분의 관심사에 맞게 QA 과제에 대해서 접목해 진행됩니다. 미리 확보한 외부의 database로부터 원하는 retrieval 대상 정보를 query로 구성해 select 및 가져오는 구조를 취합니다. 최근접 이웃 개념을 통해 조회 대상 정보를 찾은 후, 이를 encoding 및 decoding하는 구조를 취합니다. 언어 모델에 대해 최근 동향을 파악하기 어려웠는 데, 발표자분의 좋은 발표 덕에 최근 언어모델의 고민과 그 대응 방안에 대해 보다 자세하게 알 수 있었습니다. 좋은 발표 해주신 발표자분께 감사드립니다.
Jaehee Kim

2022-04-13 17:32

이번 세미나는 최근에 발표된 RETRO였습니다. 점차 모델들이 커지면서 지식을 Implicit하게 Parameterizing한다는 매우 나이브한 접근법을 취하는데 비하여, RETRO는 모델 사이즈를 합리적으로 키우면서 기존에 확보한 초대형 DataBase를 활용할 수 있는 방안을 제시했습니다.
기본적으로 BERT Embedding을 이용하여 Retrieve를 수행하지만, 효율적인 연산을 위해서 전체 Query를 그대로 사용하지 않고 Token Chunk 단위로 나누어 수행하게 됩니다. 특이한 점은 이렇게 얻은 Neighbor가 Encoder의 입력값으로 사용되고, Decoder의 입력값으로 Query가 사용됩니다. Decoder의 Masked Self Attention은 기존의 방법론을 Token Chunk 단위에 맞도록 잘라서 Attention이 진행되도록 구성하여 연산량을 효과적으로 통제하는 모습을 보였습니다.
외부 DataBase를 이용하면서도 연산량을 줄이기 위해 Chunk 단위로 나누어 모델링한 점이 주된 모델 구조라 생각되는데, 이를 기존의 Encoder-Decoder의 Input인 Source, Target에서 벗어나 Neighbor와 Query를 사용한 점이 흥미로웠습니다. 기존에 구성된 외부 DB를 효과적으로 활용할 방안을 모색하는 것이 현재 QA에서 중요한 이슈라고 알고 있는데, RETRO는 외부 DB를 이용하여 모델 파라미터 수를 비교적 적게 가져가면서도 기존의 초대형 모델과 비슷하거나 좋은 성능을 보인 점이 인상적이었습니다. 최신 논문을 빠르게 소개해주셔서 감사드립니다.
Seungwan Seo

2022-04-18 09:30

금일 세미나에서는 추가적인 database를 사용하여 기존 초거대모델에 비해 코스트를 줄이면서도 좋은 성능을 보이는 Improving Language Models by Retrieving from Trillions of Tokens 에 대해 알아보았습니다. 저자들은 대용량의 데이터를 버트에 직접 학습시키는 것이 아니라 외부에서 비교적 간단하게 representation한 후 본래 모델과의 cross attention을 진행합니다. 이러한 대용량의 데이터를 버트에 직접 학습하게 되면 O(L^2)를 가지는 attention module 때문에 상당한 코스트가 들어갈 것입니다. 본 논문의 contribution은 이러한 코스트 없이 모델의 성능을 올릴 수 있다는 것이지만, 개인적으로는 그럼에도 불구하고 대용량의 데이터를 직접 모델에 학습한 경우와 본인들의 방법론을 비교하여 코스트 대비 성능의 변화 정도를 보여주는 것이 더 좋지 않았을까 생각합니다.
Yonggi Jeong

2022-04-18 13:52

이번 세미나에선 RETRO 란 이름으로 Deepmind 에서 발표한 Improving Language Models by Retrieving from Trillions of Tokens 라는 연구에 대해 소개되었습니다. RETRO는 trillion 단위의 database 에서 retrival 을 수행하여 large language model 의 연산량을 줄일 수 있는 구조를 제안합니다. Database 는 사전 학습 된 BERT 의 embedding 과 token chunck 를 각각 key와 value 로 사용합니다. Database 를 사용한 retrieval 시엔 l2 distance 기준으로 k-nearest neighbour 를 탐색하게 되고, 탐색된 neighbours 가 함께 decoder 의 입력으로 들어가 chunked cross-attention 연산을 수행하게 되는 구조입니다. 대량의 데이터로 학습된 large language model은 데이터와 모델 파라미터가 늘어날 수록 연산 부담이 증가한다는 단점이 있는데, RETRO 와 같은 구조를 사용하면 BERT 와 같은 기존 모델을 freezed 형태로 사용하여 보다 효율적으로 파라미터를 늘릴 수 있게 됩니다. 외부 데이터 베이스를 참고하는 방식은 regularizer로서의 역할도 할 수 있다 생각되고 다른 task에서도 충분히 활용될 여지가 있는 방법론인 것 같습니다. 좋은 발표 감사합니다.
Seonggye Lee

2022-04-18 14:04

본 세미나를 통해 Improving Language Models by Retrieving from Trillions of Tokens 논문을 review 하였습니다. 딥러닝 모델의 효율성을 높이기 위해 non-parametric memory를 어떻게 활용 할 수 있는지에 대한 설명이 이루어졌습니다. 논문에서는 'RETRO' 라는 구조를 제시하였습니다. RETRO는 거대한 외부 retrieval dataset의 정보를 활용하는 transformer 입니다. Encoder에서는 input sequence와 가까운 text chunk를 검색하여 augmented encoder input으로 활용합니다. Decoder에서는 input sequence embedding과 retrieved embedding 간 chunked cross-attention을 수행합니다. Encoder에서 외부의 정보를 활용하였기 때문에(non-parametric), 상대적으로 적은 모델 파라미터로도 초대형 모델에 준하는 성능을 달성했습니다. 모델의 크기를 키워나가며 성능을 높이는 것은 결국 한계가 명확할 것이라고 생각합니다. 단순히 parameter 수에 의존하지 않고 model을 효과적으로 설계한 방법론이라는 생각이 들었고 연구자들이 나아가야할 방향을 제시해준 방법론이라는 생각이 들었습니다. 좋은 발표 감사합니다.
Gunho No

2022-04-18 14:13

이번 세미나는 Improving Language Models by Retrieving from Trillions of Tokens 논문을 주제로 거대한 외부 database를 사용하는 RETRO 모델에 대해 소개해 주셨습니다. 최신의 언어모델들은 점점 더 크기가 커지고 있고 필연 적으로 학습에 대한 비용이 커지고 있습니다. RETRO 모델은 이러한 학습 부담을 줄이기 위해 trillion 단위의 외부 database에서 retrieval을 수행합니다. 조금 더 자세히 High-level에서 살펴보면 다음과 같습니다. 문장이 들어오면 이를 그대로 RETRO에 입력하는 것이 아니라, 먼저 외부 데이터베이스에서 해당 문장과 가장 유사한 문장을 대신 가져와 모델에 입력하는 방식입니다. 이는 다르게 말하면 input 문장을 augmentation 한 것으로 이해할 수 있다고 합니다. 특히 저는 기본적인 transformer 구조에서 Token chunk의 attention이 neighbor와 계산되는 것이 인상적이었습니다. 또 발표 후반에 정말 최근의 연구들을 소개해 주셨는데, 끊임없이 새로운 아이디어가 나오는 것에 놀라며 저도 더 빠르게 공부해야겠다는 생각을 하게 되었습니다. 좋은 발표 감사합니다.
Doyoon Kim

2022-04-18 16:30

이번 세미나는 자연어처리 분야에서 knowledge를 담기 위한 딥러닝 모델의 parameter의 수에 관한 연구를 주제로 한 Improving Language Models by Retrieving from Trillions of Tokens라는 제목의 논문이 소개되었습니다. 널리 알려져있다시피 parameter가 많을수록 데이터로부터 많은 양의 지식을 얻을 수 있지만 그 만큼 연산량이 증가하고 더욱이 마라미터에 대한 해석이 더욱 어려워질 것입니다. 이러한 관점에서 일부의 지식을 가져올 수 있는 knowledge base를 구축하는 아이디어를 떠올릴 수 있고 이를 non-parametric memory라고 부를 수 있습니다. 이에 많은 연구들이 진행되어왔고 이번 세미나에서 소개된 RETRO라는 방법론은 주요 특징 중 하나는 BERT encoding을 이용하여 token chunk 단위로 입력된 본래의 input과 L2거리가 가장 가까운 정보들을 KNN을 통해 retrieval 하는 점입니다. 이렇게 retrieval 된 정보들은 본 모델의 encoder의 입력되고 실제 input text는 decoder 부분에 입력이 됩니다. 특히 decoder 부분에서 chunked cross-attention이 수행이 됨으로써 본 모델의 알고리즘을 완성합니다. 우선 자연어처리 분야에서 이렇게 Knowledge base를 구축하는 것이 근본적인 인공지능의 지향점이 되지 않을까 싶습니다. 해당 분야에 흥미가 생겨 연구흐름을 한 번 살펴보고자 합니다. 특히, database 혹은 knowledge base라고 불리는 객체가 실체로 어떤 형태이며 어떻게 다루는지가 궁금해졌습니다. 흥미로운 주제를 소개해주신 발표자 분께 감사의 말씀 드립니다. 감사합니다.
Heejeong Choi

2022-04-18 19:22

금일 세미나는 "Improving Language Models by Retrieving from Trillions of Tokens"라는 주제로 진행되었습니다. 본 발표에서는 외부의 데이터베이스에서 필요한 정보를 검색한 후 이를 학습에 모델 학습에 사용하므로써 모델 크기 증가에 따른 비용 증가의 문제를 완화한 semi-parametric 방법론들이 소개되었습니다. 그 중 대표적인 모델인 RETRO는 외부 데이터베이스를 사용하여 encoder와 decoder로 구성된 모델을 구축함으로써 매우 큰 언어모델보다 적은 파라미터로 더 좋은 성능을 도출하였습니다. 해당 모델은 매우 현실적인 문제를 해결하기 위해 제안되었기 때문에 매우 실용적이라고 생각합니다. 거대한 크기의 모델들이 많이 제안되면서 리소스의 제한으로 인해 종종 연구에 어려움이 있을 때가 있는데 해당 분야는 이러한 문제를 해결할 수 있는 현실적인 연구 분야 중 하나라는 생각도 들었습니다. 좋은 발표 감사합니다.
Hyeongwon Kang

2022-04-18 20:01

이번 세미나는 Improving Language Models by Retrieving from Trillions of Tokens를 주제로 진행되었습니다. 해당 논문에서는 Question answering을 위해 연관된 문서를 찾는 retrieval을 활용합니다. 성능을 높이기 위하여 굉장히 큰 데이터 셋인 Massive Text를 사용하였고, 모델 파라미터를 증가시켜 학습 및 추론 시 더 많은 연산과 학습 데이터 기억량을 증가시켜 성능을 향상시키고자 하였습니다. 해당 방법론은 thrillion 단위의 데이터베이스에서 retrieval을 수행하고, 연산 부담을 줄이기 위해 token chunk를 기본 단위로 설정하였습니다. 사전학습된 BERT의 embedding과 token chunk를 각각 key와 value로 사용하여 database를 구성하고 L2 distance를 기반으로 knn을 탐색합니다. 이렇게 탐색된 neighbor에 대해 별도의 transformer encoder로 임베딩하고 decoder의 cross attion layer에서 condition으로 활용하였습니다. 단순히 모델의 사이즈를 증가시키는 것을 넘어서 효율적이게 설계한 점이 인상 깊었습니다. 좋은 발표 감사합니다.
Sunwoo Kim

2022-04-18 21:08

금일 세미나에서는 Improving Language Models by Retrieving from Trillions of Tokens 논문을 다루어 주셨습니다. 해당 논문에서는 비용문제를 해결하기 위한 대안으로 모델의 외부에서 접근할 수 있는 knowledge base (database)로부터 필요한 정보를 검색하여 학습에 반영하는 semi-parametric 접근법들의 내용을 담고 있습니다. 그 중 RETRO는 학습과 retrieval 데이터로 MassiveText를 사용하고 있습니다. Encoder에서는 L2 거리 기반 k-nearest neighbor 탐색을 통해 input sequence와 가까운 text chunk를 검색하여 augmented encoder input으로 활용합니다. decoder에서는 input sequence임베딩과 retrieve한 임베딩 간의 chunked cross-attention을 수행합니다. 실험의 결과로 모델의 크기가 커져도 성능이 향상되는 폭이 유지된다는 것을 확인할 수 있었습니다. 또한, 모델 파라미터들을 고정시킨 상태에서 retrieval 데이터베이스의 크기를 늘렸을 때도 성능 향상이 명백했다는 점을 확인할 수 있었습니다. 결론적으로 상대적의 모델 파라미터의 수가 많지 않아도 대형 모델과 같은 또는 그 이상의 성능을 보이고 있습니다. 이번 세미나에서 앞부분에 parametric, non-parametric 방법론들을 먼저 다루어 주셔서 흐름을 따라가기 수월했습니다. 좋은 발표 감사합니다.
Euisuk Chung

2022-04-18 21:44

이번 세미나에서는 “Improving Language Models by Retrieving from Trillions of Tokens”라는 논문을 다루어 주셨습니다. 일반적으로 언어 모델은 파라미터가 클수록 좋은 성능을 보이지만, 그만큼 많은 양의 파라미터를 학습하는 데 소요되는 비용 문제가 되게 됩니다. 본 논문은 이러한 문제점을 완화하기 위해 거대한 외부의 knowledge base (retrieval database)로부터 필요한 정보를 검색하여 학습에 반영하는 semi-parametric method를 제안합니다. 본 논문에서 소개하는 모델은 각각 encoder-decoder 모델을 구축할 때 trillion 단위의 외부 database를 사용하여 초거대모델에 비해 파라미터를 절약하면서도 뛰어난 성능을 보입니다. Encoder에서는 Input과 가까운 text chunk를 검색한 뒤 augmented encoder input으로 활용하고, Decoder에서는 Input과 retrieval embedding 간의 chunked-cross-attention을 수행합니다. 외부 database를 활용한다는 컨셉을 이번 세미나에서 처음 접하게 되었는데 앞에서 background를 소개해 주셔서 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다!
Subin Kim

2022-04-18 21:54

이번 세미나에서 소개된 논문은 Improving language models by retrieving from trillions of tokens입니다. 본 논문에서는 언어 모델의 크기가 점점 커짐에 따라 증가하는 성능의 trade-off로 발생하는 연산 비용 문제를 해결하기 위해 non-parametric memory method를 제안합니다. 이를 통해 더 많은 정보를 활용하면서도 모델의 불필요한 확장을 방지할 수 있었습니다. 본 논문에서는 막대한 양의 외부 데이터 베이스를 바탕으로 chunk 단위의 유사도를 구해 가장 유사한 문장을 augmented input으로 함께 활용하고 있으며 input sentence와 함께 chunked cross-attention을 수행하는 방식을 활용하고 있는데, 이때 embedding은 사전학습된 BERT를 사용하여 각각 KEY와 VALUE로 활용함으로써 연산을 효율화했습니다. 적은 모델 파라미터로도 대용량의 언어모델만큼의 정보력을 가지며 그에 준하는 성능을 내는 이러한 RETRO구조는 실 서비스 차원에서 더욱 유용한 구조라고 생각했습니다. 좋은 발표 갑사합니다.
Yunseung Lee

2022-04-18 22:19

금일 세미나는 “Improving Language Models by Retrieving from Trillions of Tokens” 논문에 대한 소개로 진행되었습니다. 해당 논문에서는 knowledge base에서의 정보검색을 통해 학습에 반영하는 semi parametric method를 소개하면서, encoder-decoder기반의 RETRO모델을 제안합니다. 초거대언어모델이 지속적으로 연구되고 있으나, 학습 파라미터 개수가 늘어남에 따라 연산비용이 증가한다는 한계점을 해결하고자 retrieval 기반의 학습 방법론에 대한 관심이 높아지고 있습니다. RETRO의 encoder는 입력 시퀀스와 가장 유사한 text를 검색한 결과를 augmented 입력으로 활용하며, decoder는 입력 시퀀스와 retrieved 임베딩 간의 chunked cross attention(CCA)을 계산하는 역할을 담당합니다. 이 과정에서 dependency propagation도 함께 진행되기 때문에 직전 chunk의 이웃 정보 뿐만 아니라 모든 이전 이웃들에 대한 정보를 attend할 수 있도록 모델을 설계했습니다. 초거대모델의 한계점을 해결하기 위해 비교적 간단한 아이디어로 연산비용을 감소시킬 수 있는 모델을 제안했다는 생각이 들어 흥미로웠습니다. 자연어처리, 컴퓨터비전 등 transformer를 활용한 모델들에서 attention 연산 부분에 변형을 가하는 연구들이 점차 많아지는 것 같습니다. 좋은 발표 감사합니다.
Kyoungchan Park

2022-04-18 22:45

이번 세미나에서는 모델의 파라미터 비용을 줄이기 위한 연구인 non-prametric method에 대해 소개해주셨습니다. 언어 모델의 경우 파라미터의 크기와 성능이 비례하는 특성으로 인해 계속해서 대용량의 모델이 제안되었고, 이 문제를 완화하기 위한 것으로 해당 방법이 제안되었습니다. 본 논문에서는 외부 데이터 베이스로부터 유사도를 바탕으로 실제 input과 유사한 문장을 발굴한 뒤 이를 통해 augmented encoder input을 구성하였습니다. 또한 decoder에서는 chunked cross attention을 수행해 성능을 향상시키고자 하였습니다. 외부 데이터를 사용한다는 개념이 신선했는데 이를 활용하는 방법 또한 참신하다고 생각했습니다. 자연어 관련한 task는 그 특성상 외부 데이터의 활용이 자유로운데 이 논문은 그 이점을 잘 살려 새로운 방법론을 제안한 것 같습니다. 좋은 발표 감사드립니다.
Yookyung Kho

2022-04-18 23:22

이번 세미나는 딥마인드에서 올해 새로 공개한 논문 Improving Language Models by Retrieving from Trillions of Tokens를 주제로 진행되었습니다. 제목에서부터 유추할 수 있듯이 본 논문은 일반적인 언어모델의 공식(parametic memory)을 그대로 따르지 않고 외부의 knowledge base(데이터베이스)로부터 정보를 검색하여 활용하는 semi-parametic method를 따릅니다. 언어모델의 학습 비용 부담을 덜기 위하여 작은 크기의 모델과 제한된 양의 knowledge base에 대해서만 실험을 진행한 기존 연구들의 한계를 지적하며 본 논문에서는 encoder-decoder 구축 시 조 단위의 외부 데이터를 활용하는 RETRO 모델을 제안합니다. 구체적인 과정을 살펴보면 우선 token chunk를 기본 단위로 설정하여 retrieval을 수행하고 key-value database를 구축하며 knn을 기반으로 이웃을 탐색하여 트랜스포머 인코더로 임베딩을 진행합니다. 또한, chunked cross-attention을 통해 이전 이웃의 정보를 참조할 수 있도록 하였습니다. RETRO 모델의 가장 큰 강점은 외부 source를 활용하여 학습 비용 문제를 완화했다는 점인 것 같습니다. 일전에 QA 스터디를 진행할 때 외부 knowledge를 적절히 사용하는 것이 모델 성능 및 학습 효율에 주요한 영향을 미친다는 것을 알게 되었는데, 보다 일반적인 language model에도 대량의 외부 데이터베이스를 활용한 연구가 본격적으로 진행되고 있다는 점이 흥미롭게 다가왔습니다. 그 외에도 다양한 최신 연구 소개해주셔서 감사합니다.
Jaehyuk Heo

2022-04-19 10:47

금일 세미나는 "Improving language models by retrieving from trillions of tokens" 라는 논문에 대한 내용이었습니다. 최근 점점 더 커져가는 large scale dataset을 어떻게 활용하여 language model을 적용할 것인지에 대한 내용이었습니다. 본 논문에서 제안하는 방법은 knowledge database 로부터 학습에 사용하지 않은 pretrained language model을 통해 embedding을 추출하여 논문에서 제안하는 RETRO block을 통해 cross attention을 수행하는 방식입니다. 여기서 제안하는 cross attention은 Chunked cross-attention (CCA)로 input token을 chunk로 나누어 embedding을 수행하고 embedding 결과와 knowledge database로부터 embedding된 결과를 서로 attention을 통해 수행해주는 방식입니다. 이 방법을 통해 연산량을 줄이고 knowledge base로부터 더많은 데이터를 input으로 활용할 수 있기 때문에 효과적으로 성능을 향상 시킬 수 있었습니다. 대용량 데이터를 한번에 모델에 학습 하는 것이 아닌 knowledge data를 활용하여 해결한 다는 것이 인상적이었던 세미나 였습니다. 좋은 발표 감사합니다.
Kyoosung So

2022-04-23 16:30

이번 세미나에서는 "Improving Language Models by Retrieving from Trillions of Tokens"라는 논문에 대해 소개해주셨습니다. 어느 기업이나 요새 hyper scale을 외치면서 대용량의 AI 모델을 구축하고 있는데 본 논문에서는 그러한 흐름과는 다르게 외부 데이터베이스에서 데이터를 유사도 기반으로 찾고, 이를 가지고 증강된 입력으로써 encoder에 입력하여 활용합니다. 또한 decoder는 입력된 정보와 검색된 임베딩 간 CCA를 계산하게 됩니다. 기본적으로는 attention 기반의 retrieval 방법론을 적극적으로 활용하고 있다고 느꼈는데, 이를 통해 현재 흐름과 다르게 이미 존재하는 대용량의 데이터를 적극 활용한다는 점에서 현실에 적용 또한 용이할 것으로 보입니다. 앞으로 어떠한 흐름으로 연구가 진행될 지 궁금하게 만드는 세미나였습니다. 감사합니다.
Jina Kim

2022-06-27 21:58

이번 세미나에서는 언어모델이 거대해지면서 그로 인한 막대한 학습 비용을 방지하고자 모델 외부의 knowledge base를 활용하는 방법론인 RETRO를 소개해주셨습니다. 해당 모델은 encoder-decoder 구조로 이루어져 있고, encoder에서는 input sequence와 유사한 text chunk를 database 내에서 검색하여 이를 augmented encoder input으로 쓰게 됩니다. decoder는 input sequence embedding과 retrieved embedding 간의 chunk cross-attention을 통해 잠재적인 모든 neighbor를 참조하게 합니다. 이러한 방식으로 외부 database를 참조하여 적은 파라미터만으로도 초대형 언어 모델과 견줄만한 성능을 냈습니다. 간단하거나 빈도 높은 상황에서는 rule-based로 가는 것이 더 효율적일 것 같다는 생각을 실제로 구현한 모델이라고 생각됩니다. 좋은 발표 감사합니다.

« [Paper Review] N-HiTS: Neural Hierarchical Interpolation for Time Series Forecasting

[Paper Review] CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via Conditional Normalizing Flows »

목록보기

전체 503

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10481	관리자	2020.03.12	0	10481
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 9091	관리자	2020.03.12	0	9091
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10208	관리자	2020.03.12	0	10208
500	[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1) Junyeong Son \| 2025.05.08 \| 추천 0 \| 조회 34	Junyeong Son	2025.05.08	0	34
499	[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7) Doyoon Kim \| 2025.05.01 \| 추천 0 \| 조회 113	Doyoon Kim	2025.05.01	0	113
498	[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17) Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 219	Sunghun Lim	2025.04.24	0	219
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 165	Suyeon Shin	2025.04.21	0	165
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 193	Woongchan Nam	2025.04.16	0	193
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 375	Kiyoon Jeong	2025.04.16	0	375
494	[Paper Review] Reasoning over Time Series with LLMs (16) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 388	Hyeongwon Kang	2025.04.09	0	388
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (17) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 389	Jaehyuk Heo	2025.04.02	0	389
492	[Paper Review] Reasoning and Reinforcement Learning for LLM (16) Jaehee Kim \| 2025.04.02 \| 추천 0 \| 조회 379	Jaehee Kim	2025.04.02	0	379
491	[Paper Review] LLM based Recommender Systems : EAGER-LLM (20) Jungho Lee \| 2025.04.02 \| 추천 0 \| 조회 312	Jungho Lee	2025.04.02	0	312

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호