1. 논문 제목 : Learning to Tokenize for Generative Retrieval
2. Arxiv 링크 : https://arxiv.org/abs/2012.12624
3. 발표 컨퍼런스 : NeurIPS 2023
4. 인용 수 : 19회 (2024년 3월 9일 기준)
5. 1저자 : Weiwei Sun
6. 요약
최근 LLM의 발달에 따라 Information Retrieval 분야에서도 LLM을 활용하기 위한 다양한 방식이 논의되고 있습니다. 기존 DPR 기반의 연구 방향에서는 Query 입력시 생성한 Representation과 가장 가까운 Passage Representation을 유사도 검색을 기반으로 탐색하는 구조를 취하고 있습니다. 하지만 LLM의 정보 기억 및 생성이 매우 우수하다는 특징을 이용한다면 유사도 기반의 검색 방법론의 한계점을 극복하면서도 더 높은 성능을 달성할 수 있습니다. 이번 세미나에서는 Query 입력 시 직접 Passage의 Index를 생성하는 매우 독특한 접근 방식을 가지는 Generative Retrieval 연구 방향을 소개하고, 다양한 해당 분야 연구 중 좋은 성능을 보이고 있는 GetRet 방법론을 중심으로 살펴보고자 합니다.
7. 발표 구성 :
1. Information Retrieval Pipeline: 기존 Dense Retrieval 방법론 학습-인덱스-추론 과정
2. Generative Retrieval: DSI를 통해 제안된 Generative Retrieval 방법론 학습-추론 과정
3. Proposed Method: GenRet 구조 및 학습 방법론 소개
4. Experiment: GenRet에 대한 실험 및 분석 자료
5. Conclusion: Generative Retrieval 방법론 장점 및 GenRet 요약, 향후 연구 방향 모색
8. 발표자료: 하단 첨부
9. 발표영상:
">영상링크
이번 세미나에서는 기존의 정보 검색 방식에서 벗어나 Generative Retrieval이라는 새로운 개념을 제시한 "Learning to Tokenize for Generative Retrieval" 논문에 대해서 발표해 주셨습니다. 이 방식에서는 질문에 대한 답을 찾기 위해 기존의 Dense Retrieval 방식처럼 문서들 사이의 유사도를 기반으로 검색하는 것이 아니라, 질문에 직접적으로 대응하는 문서의 인덱스를 생성합니다. 이러한 접근 방식은 검색 속도와 정확도를 현저히 향상시킬 잠재력을 가지고 있으며, 이는 정보 검색 분야에 있어 중요한 진보를 가져왔다고 생각합니다. 특히, 해당 논문에서 제안한 Generative Retrieval 방식은 Large Language Models의 강력한 정보 처리 능력을 활용하였습니다. 이는 검색 시스템이 사용자의 질문을 더 잘 이해하고, 더 관련성 높은 문서를 신속하게 찾아낼 수 있게 해줍니다. 이런 점에 있어서 전통적인 검색 시스템의 한계를 넘어서는 새로운 방법론으로 주목받았다고 생각합니다. 또한, 논문에서 다루는 Codebook Initialization과 같은 기술적인 부분들은 문서의 의미적 정보를 모델이 더 잘 이해하고 저장할 수 있게 해주는 점에서 매우 인상적이었습니다. 이는 모델이 각 문서의 고유한 특성을 더 잘 포착하고, 검색 시 이를 활용해 더 정확한 결과를 제공할 수 있게 만들어 줍니다. 개인적으로, 이러한 접근 방식이 실제로 구현되고 적용된다면, 우리가 정보를 검색하는 방식이 근본적으로 변할 수 있을 것이라는 기대가 생겼습니다. 정보 검색의 속도와 정확성이 크게 향상될 뿐만 아니라, 사용자의 질문에 더욱 맞춤화된 답변을 제공할 수 있게 될 것입니다. 그러나, 동시에 이러한 방법론이 어떻게 대규모 데이터에 효율적으로 적용될 수 있을지, 그리고 다양한 언어나 도메인에 대한 적용성은 어떨지에 대한 의문도 생깁니다. 이러한 새로운 방법론의 잠재력을 완전히 실현하기 위해서는 추가적인 연구 발전 방향도 많다고 생각됩니다. 좋은 발표해 주셔서 감사합니다.
이번 세미나에서는 전통적인 정보 검색 방법을 넘어서서 LLM을 활용한 Generative Retrieval에 대한 방법을 소개하였습니다. "GetRet" 방법론은 기존의 DPR 방식과 달리 직접적으로 문서의 인덱스를 생성하는 방식을 제안하였습니다. 이 방법은 LLM의 강력한 정보 처리 능력을 기반으로 하여, 단순히 문서 간의 유사도를 검색하는 것이 아니라, 질의에 가장 적합한 문서를 직접적으로 찾아내는 방법을 제안하였습니다. 이 과정에서 생성된 인덱스는 높은 정확도와 효율성을 보이고, 더 빠르고 정확한 결과를 제공할 수 있다는 점이 인상깊었습니다. 좋은 발표 감사합니다.
이번 세미나에선 LLM의 발전에 따른 Information Retrieval 분야에서의 새로운 활용 방식인 Generative Retrieval 방식과 그 중 DSI라는 방법론에 대해 소개하고, 특히 최근 좋은 성능을 보이는 GenRet에 대해 제안하는 "Learning to Tokenize for Generative Retrieval"이라는 논문에 대한 발표로 진행되었습니다.
기존에 유사도를 기반으로 문서 Doc ID를 탐색했던 Dense Prediction Retrieval(DPR)은 수백/수천만의 Representation과의 유사도 비교가 필요한 만큼 시간 소모가 컸습니다. 따라서 Generative Retrieval 방식에서는 이러한 탐색 과정을 생략하고, 직접 질문에 대응하는 문서의 Index를 생성하는 방식으로 검색을 진행하여 더 빠르고 높은 정확도를 통해 Retrieval을 수행할 수 있습니다. 본 논문에서 학습 때 사용되는 문서를 활용하는 Seen test와 학습 때 사용하지 않은 문서를 활용하는 Unseen test를 진행한 Experiment의 결과에서 DSI의 경우 각 Document에 대응하는 Doc ID를 모델이 암기하는 Memorization에 치중하기 때문에 Seen 데이터와 Unseen 데이터에 대한 성능 차이가 있었으며, 이에 반해 GenRet의 경우 Codebook Initialization과 같은 추가적인 부분들을 통해 Document별로 가지고 있는 Semantic한 정보를 더욱 잘 반영하여 유의미한 성능 향상을 보인 부분이 인상깊었습니다.
이렇듯 GenRet을 포함한 다양한 Generative Retrieval의 방식을 통해서 모델이 Document의 정보를 적절하게 반영하여 학습하고 이를 통해 Retrieval하는 과정을 더 빠르고, 정확하게 진행할 수 있다는 점에서 개인적으로 향후 더 많은 Doc ID에 대한 업데이트 방법을 통해 효과적인 검색을 할 수 있을 것 같다는 기대감을 가지게 되었습니다. LLM의 비약적인 발전을 통한 광범위한 분야와의 결합 및 이에 따른 새로운 효과를 제시하는 연구는 언제나 흥미로운 것 같습니다. 좋은 발표 해주셔서 감사합니다.
금일 세미나에서는 기존 Retrieval task에서 일반적으로 Query에서 직접 Doc ID를 생성하는 DSI (Differentiable Search Index) 방법과 다르게 Doc ID를 학습 과정에서 생성하고 Doc ID 내 문서 정보 반영을 위한 Reconstruction Module을 도입한 'Learning to Tokenize for Generative Retrieval'이라는 논문을 소개해 주셨습니다. 해당 방법론을 지칭하는 GenRet에서는 질문/문서가 Encoder에 입력된 후 Encoder의 Hidden representation과 이전 단계의 Doc ID를 Decoder가 Input으로 받아 반환된 Latent Representation을 Codebook에 입력하여 현재 단계의 Doc ID를 예측 및 학습하는 과정으로 이루어져 있습니다. 이 때, 각 Doc ID가 문서의 정보를 반영하도록 Representation이 해당 Doc ID를 가지는 문서와 유사한 Representation을 갖도록 Reconstruction loss를 구성하였으며, 이전 Doc ID를 기반으로 이후의 Doc ID를 생성하도록 유도하는 Commitment loss, 마지막으로 탐색 단계에서 질문과 관련된 문서의 Doc ID를 생성하도록 유도하는 Retrieval loss까지 총 3가지의 loss를 구성하고 있습니다. 이 때, Document ID를 저장해놓는 Codebook의 경우 매 Doc ID 단계 학습 초기 부분에 Reconstruction loss 내의 Doc ID Representation을 Latent Representation으로 교체하여 각 문서가 최대한 다른 Representation을 생성하도록 학습하며 N Step 학습 종료 후 모든 문서의 Latent Representation을 수집하여 K-Means Clustering -> Centroid vector를 산출이하여 이를 Codebook의 초기값으로 사용하는 Codebook Initialization 방법 또한 제시하고 있습니다. 실험 결과로 Unseen data에 대해서 상당한 성능 개선을 이뤄낸 것을 보면서 MS MARCO와 BEIR dataset 말고도 다양한 Unseen dataset에 대해서도 동일한 성능 개선을 보여줄 수 있는지 궁금했던 것 같습니다. 좋은 발표 감사드립니다!
이번 세미나는 Given Query에 대한 적절한 Document를 찾아오는 Information Retrieval 분야의 모델을 소개합니다. 특히, 딥러닝에서 IR 문제를 모델링하는 데에 사용되는 Dominant한 방법론이 아닌, 다른 접근 방법을 취하는 것이 인상적인 논문이었습니다. 보통의 방법론들은, Query와 Document들을 어떠한 embedding space에 잘 mapping시켜, 주어진 Query에 대한 Gold Passage를 Query와의 유사도가 가장 높은 Document를 Retrieve하는 방법론을 사용합니다. 자연스럽게 Encoder model을 사용해야겠다는 생각이 드는 접근 방법인데, 본 논문에서는 Decoder model을 사용하여 Given query로부터 적절한 Document를 직접 생성해내는 방법론을 택합니다. Scaling laws의 덕택을 볼 수 있는 영리한 접근방법이라고 생각하였습니다. 하지만, 이로부터 파생되는 중요한 문제점이 있습니다. 기존의 방법론은 각 Documents들을 Independent하게, 즉 Document마다 임의의 Index를 부여하고, 그 각각마다 하나의 embedding을 깔끔하게 부여할 수 있었지만, Generative한 방법론의 경우, 생성하는 Index들이 passage에 dependant해야하며, 여러 단계에 걸쳐 generate해야하다보니, hierarchical한 정보도 가지고 있어야 합니다. 그리고, 이 Index를 부여하는 것 또한 Self-supervised하게 해야하다보니, ML 기반의 Clustering 개념이 많이 들어가 전반적인 process가 복잡해지는 것은 피할 수 없었던 것 같습니다. 개인적으로, 이 방법론을 사용하더라도, 각 문서들의 embedding은 없어지는 것이 아니라, generate 단계의 softmax를 생각해보면, codebook 자체가 각 index의 embedding을 나타낸다고 생각이 됩니다. 이에 연결지어서, 생성할 개수(hierarchy의 단계)에 대한 하이퍼파라미터의 개수에 맞춰서 그만큼의 codebook을 Initialize를 하고 사용하는 것도 단계별 생성의 위계를 좀 더 반영해줄 수 있지 않을까 생각했습니다. 사실상, embedding을 id(scalar)로 projection시킴으로서 efficiency를 챙기는 굉장히 Light-weight한 방법론이라는 생각이 들었고, 성능이 embedding-based 방법론들보다 잘 나올 수 없을 것이라고 생각했는데, 높은 성능을 보여주어 신기한 방법론인 것 같습니다. 좋은 논문 소개해주셔서 감사합니다.
본 세미나에서는 "Learning to Tokenize for Generative Retrieval"이라는 논문에 대한 소개를 중심으로 진행되었습니다. Information Retrieval 분야에서 기존에 사용되던 DPR(Dense Passage Retrieval)과 Query에서 직접 Doc ID를 생성해 내는 방법론인 DSI(Differentiable Search Index)에 대해 설명해 주셨습니다. 해당 과정에서 Doc ID를 단순히 임의의 숫자를 부여하는 것이 아닌, 각 자릿수에 semantic 한 정보를 반영한 구조적 ID를 도서관 책 번호에 빗대어 설명해 주신 것이 인상 깊었습니다. 이후 해당 논문의 핵심 방법론인 GenRet에 대해 소개해주셨습니다. 기존 방식은 Doc ID를 부여한 뒤 Retrieval을 진행하기 때문에 Unseen Doc ID에 대해 매우 취약하다는 단점이 존재하였고, 이를 모델 기반의 Doc ID 생성과 CodeBook에 Doc ID를 저장함으로써 이를 해결하고자 하였습니다. 해당 모델에서 사용하는 3가지 Loss에 관해 설명해 주셨습니다. 동일 계층에 존재하는 Doc ID끼리 비교하여 각 Doc ID가 문서의 정보를 반영하도록 유도하는 Reconstruction Loss, Doc ID가 이전 단계의 Doc ID를 기반으로 생성하도록 유도하는 Commitment Loss, 마지막으로 Query와 Doc 간 Contrastive Learning을 통해 질문과 문서를 연결하는 Retrieval Loss입니다. 복잡할 수 있는 3가지 Loss의 의미를 직관적으로 이해할 수 있도록 설명해 주셔서 좋았습니다. 특히, GenRet의 Codebook Initialization 과정에서 다양한 Doc ID를 구성하고자 하였고, 이후 Retrieval Loss를 제외한 Reconstruction Loss와 Commitment Loss만을 사용하여 Doc ID와 관련된 representation을 추출하고자 하였습니다. 이후 Doc ID Re-assignment를 통해 train 과정에서 하나의 batch에 Doc ID가 균일하게 배정되도록 유도하였습니다. 이러한 과정들이 최종적인 GetRet의 성능에 기여한다는 점이 흥미로웠습니다. parameter가 큰 LLM을 활용하는 다양한 연구들이 진행되고 있는 과정에서 Retrieval 분야에 좋은 성능을 보이는 정교한 방법론에 대해 알 수 있던 의미 있는 세미나였습니다. 좋은 발표 해주셔서 감사합니다.
본 세미나는 "Learning to Tokenize for Generative Retrieval"이라는 주제를 바탕으로 진행되었습니다. "DSI", "GenRet"이라는 모델에 대해서 소개되었는데 첫 번째 "DSI"는 Generative Retrieval로 문서 및 질문에서 직접 Doc ID를 생성하는 방법론입니다. 특히 Bi-Encoder 기반의 Dense Retrieval 방법론 대비 Scaling을 통한 성능 향상 우위에 있습니다. 따라서 문서의 의미적 정보를 모델이 암기(Memorization) 및 탐색 가능하다는 특징이 있습니다. 두 번째 "GenRet"은 Generative Retrieval 시 모델 스스로 Doc ID 생성 및 학습 방법론을 제안하였습니다. 특히 Doc ID 다양성 및 균등성을 반영한 Codebook Initialiation 및 Re-assignment 방법론을 적용하였습니다. 따라서 텍스트 분야의 유의미한 discrete(Doc ID) Auto Encoding 방법론을 적용했다는 특징이 있습니다. 두 방법론을 보면서 든 생각은 Doc ID 업데이트 방법론이 현재는 나이브 하다고 생각했고, 좀 더 발전시킬 수 있다고 생각했습니다. 마지막으로 Retrieval을 생성형으로 접근 한다는 방식이 매우 흥미로웠고, Retrieval과 LLM의 결합이 이루어지는 적합한 task가 아닐까 생각합니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 "Learning to Tokenize for Generative Retrieval" 논문을 바탕으로 진행되었습니다. 이 논문은 retrieval task에 관한 것으로 기존의 dense passage retrieval (DPR) 방법론들과 달리 generative retrieval을 사용합니다. 특히 GenRet은 generative retrieval을 수행할 때, 사람이 직접 데이터의 hierachical한 구조를 explicit하게 입력할 필요없이 효율적인 초기화 방법과 학습을 통해 모델이 스스로 판단할 수 있게 만든 점이 흥미로운 방법론입니다. 더욱 자세하게 설명하자면 document id (docids)의 다양성 및 균등성을 위해 codebook initialization과 re-assignment 방법론을 적용했습니다. 저는 개인적으로 embedding level에서 가장 가까운 passage를 선택하는 retrieval task를 마치 분류 task와 같은 방법으로 대체할 수 있음을 보고 매우 신기했습니다. iterative한 classification을 통해 가장 적합한 passage를 고를 수 있다면 이와 같은 방법을 image classification과 같은 아예 다른 분야에 적용할 수는 없는지 그러한 연구가 수행되고 있는지가 궁금해지는 세미나였습니다. 훌륭한 발표 감사드립니다.
이번 세미나에서는 Learning to Tokenize for Generative Retrieval 라는 논문을 다루었습니다. 이번 세미나의 주제는 Generative Retrieval이었습니다. Generative Retrieval는 널리 사용되는 유사도 기반 탐색이 아닌 검색할 index를 직접적으로 생성하는 방법론입니다. 유사도 기반 탐색 방법론은 수천만의 문서에 대해 유사도를 계산해야하기 때문에 검색 시간이 매우 오래 걸리지만 Generative Retrieval은 탐색 과정이 생략되기 때문에 탐색 속도가 빠르다는 장점이 있습니다. GenRet은 기존 Generative Retrieval 방법론인 DSI의 문제점을 개선한 방법론입니다. DSI와 달리 Doc ID 사전을 생성하는 것이 아니라 학습 과정에서 Doc ID를 생성하며 순차적 Doc ID 학습 및 배정을 통해 의미 정보 반영을 개선했다는 특징이 있습니다. 실험에서도 GenRet이 기존 방법론들에 비해 훨씬 뛰어난 성능을 보이며 탐색 속도가 매우 빠르다는 것을 확인할 수 있었습니다. Generative Retrieval가 어떤 식으로 구성되고 학습되는지 알 수 있어 좋았던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Information Retrieval Task에서 기존에 가장 널리 사용되었던 Dense Passage Retrieval의 문제점을 지적하고, 이를 해결하면서 새로운 Retrieval 방식을 제안하고 있는 Learning to Tokenize for Generative Retrieval에 대해 다뤄주셨습니다. 기존의 retrieval들은 query 와 passage 간의 유사도를 이용해 query에 가장 맞는 passage를 찾는 Task였습니다. 하지만 유사도를 계산해야 했기 때문에 많은 연산량을 요구하고, 효율성이 떨어지는 문제가 있었습니다. 하지만 DSI의 경우 유사도를 계산해 찾는 방식이 아닌 문서 ID를 생성하는 방식으로 Retrieval을 풀어가고 있습니다. 기존에는 memory bank 등을 이용하여 문서에 대한 representation을 저장해야 했지만 DSI의 경우 이를 implicitly 하게 모델 파라미터에 저장 시켜 직접 생성할 수 있는 것이 인상깊었습니다. 다만 궁금하면서 우려스러운 부분은 기존 방법론은 새로운 문서가 추가되었을 때 representation을 추출하고 memory bank에 저장만 하면 되지만, 파라미터와 생성 Task로 하는 경우 어떤 방식을 통해 새로운 문서를 추가하는지에 대한 물음표가 들었습니다. Retrieval에 대한 자세한 설명과 비교 덕분에 이해가 수월했습니다. 감사합니다!
본 세미나에서는 Information Retrieval Task 에 대해서 설명하였습니다. DPR 의 설명과 DPR 이 가지는 문제점을 설명하고 이를 해결하기 위해서 Learning to Tokenize for Generative Retrieval 방식을 제안한 논문에 대해서 다뤘습니다. Token 을 생성해 내는게 무슨 차이가 있는지 사실 무슨 차이가 있을 지 궁금 했었는데, 가장 큰 차이를 내는 점은 구조적 ID 를 생성해 내는 것으로 이해했습니다. 당연하게도, 도서관 처럼 ID 에 계층적 구조 처럼 의미를 담고 있으면 그것을 생성하게 끔 학습하는 것은 의미가 있을 것으로 생각했습니다. 해당 TASK 를 잘 몰랐을 때는 Passage 를 단순하게 생성해 주는 방식이 더 낫지 않을까 생각했는데, 아직까진 말처럼 쉽진 않은 것 같다는 생각을 하였고, 생각보다 DOC 의 수도 그리 많지 않아서 해결해야 하는 부분이 많다고 느꼈습니다. 제안한 방법론에서 ID 를 찾는 것이 결국은 DOC 의 정보를 좀 더 의미론적인 관점에서 모델이 이해한다고 생각 할 수 있었고, 당연하게도 탐색속도도 빨라지는 장점이 있는 것으로 확인했습니다.
이번 세미나는 "Learning to Tokenize for Generative Retrieval" 논문을 중심으로 진행됐습니다. 해당 연구는 Generative Retrieval이라는 방법론을 제안하여 기존 Retrieval 방법론의 한계를 개선하고자 합니다. 특히, "DSI"와 "GenRet" 두 모델을 기반으로 Generative Retrieval을 제안합니다. "DSI" 모델은 문서와 질문에서 직접 Doc ID를 생성하는 방식으로 정보를 탐색합니다. 한편, "GenRet" 모델은 Doc ID의 다양성을 고려하여 Codebook Initialization 및 Re-assignment 기법을 적용함으로써, 더욱 효율적인 방법론을 제안합니다. 기존 DPR 관련 연구의 한계를 명확하게 지적하고, 이를 극복할 수 있는 방법론을 제안한 점에서 매우 흥미로운 연구라 생각합니다. 좋은 발표 감사합니다.
이번 세미나에서는 Learning to Tokenize for Generative Retrieval이라는 연구를 중심으로 Generative Retrieval 방법론에 대해 소개해 주셨습니다. Retrieval 방법론 중 대표적인 모델인 DPR은 BERT 계열의 Encoder-only Model을 기반으로 합니다. Retrieval 대상 문서들에 대한 임베딩을 Encoder를 이용해 산출하고 Indexing을 수행합니다. 이후, Query에 대한 임베딩을 산출한 후 Index 상에서 유사도를 기준으로 Top-k개를 관련된 문서라 판단하고 문서 ID들을 탐색 결과로 반환합니다. 유사도를 기반으로 탐색하기에 수많은 후보 문서들과의 유사도 비교 과정이 소요되어 많은 시간이 소요됩니다. 반면, DSI는 Query에 대해서 NLG 모델을 이용해 직접적으로 문서의 ID를 “생성”하는 방식을 취해 유사도 연산 과정이 생략됩니다. 따라서 DPR과 같은 Encoder-only 모델 + 유사도 기반 탐색 방법론 대비 빠른 탐색이 가능하다는 장점을 보였습니다. GenRet는 DSI의 학습 및 탐색 프레임워크와 거의 동일하지만, 각 문서 ID 별 의미/정보 대푯값을 저장하는 역할을 수행하는 CodeBook이라는 MLP Head를 사용합니다. 생성할 문서 ID에서 숫자 토큰 하나만 잘못 생성하더라도 Retrieval가 실패한 것이기에 Generative Retrieval의 성능이 좋을지 의구심을 가졌는데 실험 결과에서 Contriever에 준하는 성능을 보여 인상적이었습니다. 흥미로운 방법론에 대해서 자세하고 쉽게 설명해주셔서 이해에 많은 도움이 되었습니다.
금일 세미나는 Learning to Tokenize for Generative Retrieval 논문을 바탕으로 진행되었습니다. 먼저 Information Retreival task는 Query가 입력되었을 때, Wikipedia, Webpage와 같은 다양한 도메인의 지식을 보유한 문서 집합으로부터 관련된 passage를 Retrieve하는 Task라고 이해해주시면 되겠습니다. 이때 추론을 위하여 Passage Encoder를 통하여 문서 집합 내의 모든 문서의 Representation을 산출하며, 이를 통해 Indexing을 진행하게 됩니다. Indexing을 진행하게 된다면 모든 문서의 Representation은 해당하는 index와 매칭이 되어, 결론적으로 Retriever는 Query에 대해 가장 가까운 문서의 Index를 탐색하는 방법론이라고 말할 수 있겠습니다. 이때, 해당 논문에서는 기존의 DPR 방법과는 다르게 직접 Passage의 Index를 생성하는 독특한 방식으로 접근하는 방법론을 제시해주고 있습니다. 해당 방법론에서는 단순히 Hierarchical 하게 Doc ID를 생성하는 것이 아니라, 학습 과정에서 Doc ID를 생성하며, 순차적인 Doc ID 학습 및 배정을 통해 의미 정보 반영을 개선했습니다. 또한, Trivial solution에 빠져 다양성을 고려하지 않는 상황을 피하고자 Codebook Initialization 및 Doc ID Re-assignment를 수행해주고 있습니다. 처음 들었을 때는 의아한 부분이 많았지만, 오히려 문서들이 Hierarchical한 형태로 이루어져 있다면, 순차적으로 ID를 생성하는 것이 더 효과적일 수 있겠다고 생각했습니다. 좋은 발표 정말 감사드립니다.
오늘 논문은 도메인 Query에 대해 관련문서를 잘 탐색하도록 새롭게 고안된 방법을 통해 Informatoin Retrieval 을 개선한 내용입니다. 기존 Information retrieval 방식인 DPR(Dense Passage Retrieval)은 Batch 단위 사이즈로 query와 정답 문서의 유사도를 최대화 하도록 학습하고 Passage encoder에서만 FAISS를 사용하여 유사도 기반 Indexing을 진행합니다. 이러한 방식은 시간 소모가 큰 문제가 있는데 이를 해결하기 위해 DSI(Differentiable Search Index) 방법론이 나오게 되었고, Seq2Seq모델을 통해 Query에서 직접 Doc ID를 generate하기 때문에 효율성이 좋습니다. 오늘 소개된 GenRet 방법도 DSI와 유사한 Generative retriever 방식을 사용하고 있습니다. DSI와 다른점은 Doc ID를 미리 생성하는 것이 아니라 학습과정에서 Doc ID를 생성하는 것이 특징입니다. 다만 trivial solution 문제가 생길 수 있는 부분이 있기 때문에 DocID의 편향성을 줄이기 위해 codebook initialization과 Doc ID reassignment 방법론이 추가가 되었습니다. Information Retrieval 방식들이 점차 개선되어 향후 Domain 기반 대용량 copus들이 LLM과 잘 응용될 수 있겠다는 생각이 들었습니다. 감사합니다.
이번 세미나에서는 "Learning to Tokenize for Generative Retrieval"에 대해 소개해주셨습니다. 해당 논문이 retrieval과 관련된 만큼, background에서 information retrieval 및 dense passage retrieval에 대한 자세한 설명이 함께 진행되었습니다. Information retrieval에서는 Query가 입력되면 Query representation을 도출하여 미리 계산해두었던 Passage representation과의 유사도를 계산합니다. 이후 그 중 유사한 top-k개를 가져와서 index table을 통해 doc id를 얻고 최종적으로 실제 database에서 doc을 검색해오는 프로세스로, indexing을 중심으로 task가 수행되게 됩니다. 소개해주신 논문은 이의 indexing 과정을 제외하고 모델이 doc id 자체를 기억하고 직접적으로 생성까지 할 수 있도록 하는 DSI 방법론에 관해 다루고 있었습니다. GenRet은 Reconstruction, Commitment, Retrieval의 3가지 loss를 가집니다. Reconstruction은 Information retrieval에서 흔히 사용하는 InfoNCE와 유사한 loss로 문서의 정보를 doc id 자체에 반영할 수 있도록 학습을 수행하는 역할입니다. Commitment는 모델이 생성하는 독립적인 doc id간의 관계성을 고려하는 부분으로, 문서가 가지는 모든 단계의 doc id를 순차적으로 생성하도록 학습하게 됩니다. 마지막으로 Retrieval loss는 질문과 관련된 문서의 doc id를 생성하도록 유도하는 부분으로, cross entropy loss를 활용하게 됩니다. Information retrieval에 대해 전반적인 개념을 이해할 수 있었으며 특히나 GenRet 방법론이 indexing 측면에서 이를 필요로 하지 않고 그 다음 단계인 doc 검색을 한번에 수행하는 차별점을 갖는 점이 매우 흥미로웠습니다. 항상 좋은 발표 감사드립니다.
이번 세미나에선 "Learning to Tokenize for Generative Retrieval" 논문을 주제로 진행되었습니다. 해당 논문에선 기존의 LLM의 task 중 하나인 Information Retrieval분야에서 기존의 정보 검색 방식과 다른 Generative Retrieval 방법론을 제안하였습니다. 해다 방법론은 기존에 유사도를 기반으로 문서 Doc ID를 탐색했던 Dense Prediction Retrieval(DPR) 방식보다 query와 대응하는 문서의 인덱스를 생성 및 활용하여 보다 빠르게 정보를 retreive해올 수 있는 방법론 입니다. DPR 같은 경우 모든 representation 과의 유사도 비교를 계산해야 되는 만큼 컴퓨팅, 시간 자원 소모가 상당히 컸는데, 인덱스르 활용하여 이에 소모되는 자원을 줄이고 소요시간을 줄였다는 점이 가장 큰 장점입니다. 인덱스를 활용하여 얻을 수 있는 장점 중 하나가 Seen Data에 fitting (DOC ID를 모델이 암기하는 상황) 되지 않아, Unseen Data에 대해서도 성능차이가 적음이 있습니다. LLM의 발전에 있어, efficicency 측면과 성능적측면에서 모두 괄목할 만한 향상을 보인 흥미로운 논문이였습니다. 항상 재밌는 논문들 소개해주셔서 감사합니다.
이번 세미나는 information retrieval 을 주제로 다루어졌습니다. 기본적으로 information retrieval 은 검색(query) 대상과 가장 유사한 문서(passage)를 찾아내는 것으로 denser passage retrieval은 query와 passage의 representation을 이용하여 representation 간 유사도를 기반으로 찾고자하는 passage를 구하게 됩니다. Generative Retrieval은 직접적으로 passage의 id를 생성하도록 하는 방법론 입니다. 이때 passage의 id는 마치 도서관의 책 분류 번호처럼 id의 각 번호에 의미를 가지고 있고 계층적인 구조로 되어있습니다. 그러기에 id를 생성한다는 것이 합리적인 task가 되는 것입니다. 소개해주신 연구도 generative retrieval의 방법론으로 id의 representation과 passage의 representation 모두를 학습하며 이전 시점에서 생성된 id를 이용하여 다음 시점의 id를 생성할 수 있도록 학습하는 방식을 보여줍니다. Generative Retrieval의 효용성이 굉장히 높을 것으로 생각됩니다. Dense Phrase Retrieval의 경우에는 방대한 양의 문서의 id를 분류하는 방식을 채택하기에 상대적으로 계산량도 많아질 수 밖에 없는데, Generative Retrieval은 이러한 면에서 큰 이점을 가질 수 있지 않을까 생각합니다. 흥미로운 주제 소개해주셔서 감사합니다.
이번 세미나는 Learning to Tokenize for Generative Retrieval를 주제로 진행되었습니다. 본 논문은 Query가 입력되었을 때,다양한 문서 중 질문과 관련된 문서를 탐색하는 태스크인 Information Retrieval task를 다루고 있습니다. Information retrieval 중 differentiable search index(DSI)는 쿼리에서 직접 doc ID를 생성하는 방법론입니다. DSI는 Dense passage retrieval과 다르게 탐색 과정이 없어 빠른 탐색이 가능하다는 장점이 있습니다. 본 논문에서 제안하는 GenRet은 Generative Retrieval시 모델 스스로 DocID 생성 및 학습 방법론입니다. DSI와 다르게 Doc ID를 사전에 생성하지 않고 학습을 통해 생성하며, 문서 정보 반영을 위한 Reconstruction Module을 도입하였습니다. 또한 Codebook Initialization 및 Re-assignment 기법을 적용하여 효율적인 방법론을 제안하였습니다. 좋은 발표 감사합니다.
이번 세미나에서 소개된 "Learning to Tokenize for Generative Retrieval" 논문은 정보 검색(Information Retrieval) 분야에 있어 혁신적인 접근 방식을 제안하며 많은 통찰을 제공했습니다. 기존의 Dense Prediction Retrieval(DPR)과 같은 방법론이 문서의 임베딩을 생성하고, 이를 기반으로 유사도를 계산하여 관련 문서를 검색하는 방식에 의존했다면, 이 논문에서 제안하는 Generative Retrieval 방법론은 직접적으로 문서의 ID를 "생성"함으로써 유사도 계산 과정을 생략, 더욱 빠른 검색을 가능하게 합니다. CodeBook이라 불리는 MLP Head를 통해 각 문서 ID 별로 의미/정보의 대표값을 저장하는 방식은 문서 검색의 정확성과 효율성을 동시에 증진시키는 데 크게 기여합니다. Generative Retrieval 방법론은 기존의 유사도 기반 탐색 방식에 비해 컴퓨팅 및 시간 자원 소모를 줄이는 동시에, Seen Data에만 fitting되지 않아 Unseen Data에 대해서도 성능 차이가 적다는 점에서 큰 장점을 가집니다. 좋은 발표 감사합니다.