[Paper Review] Learning to Filter Context for Retrieval-Augmented Generation

Paper Review
작성자
SeongHee Hong
작성일
2024-04-30 20:01
조회
1718
  1. 논문 제목 : Learning to Filter Context for Retrieval-Augmented Generation (Wang, Zhiruo, et al., arXiv preprint 2023) (# of citations : 17)
  2. 논문 Overview
    : Retrieval-augmented Generation 상황에서 Retrieved Passages 모든 Passage 혹은 문장들을 사용할 경우 오히려 관련 없는 내용을 포함하거나 정답 생성에 방해가 되는 정보가 포함될 있음을 지적함. 정답 생성에 필요한 문장을 Retrieved Passage로부터 필터링하는 방법인 FilCo(Filter Context) 제안함. 학습 시점에는 가지 방법을 이용해 Passage 별로 정답 생성에 필요한 문장을 Annotation , 이를 이용해 Test 시점에 활용할 Context Filtering Model 학습에 이용함. 실험적으로 FilCo 전체 Passage들를 사용하는 경우, Top-1 Passage 전체를 사용하는 경우보다 높은 성능을 보이며 제안 방법론의 효과성을 입증함.
  3. 발표 자료 : 하단 첨부
  4. 발표 영상 : ">바로 가기
전체 15

  • 2024-05-13 23:49

    이번 세미나에서는 "Learning to Filter Context for Retrieval-Augmented Generation" 논문에 대해 진행해주셨습니다. 본 논문은 검색 기반 생성(RAG) 모델의 성능을 향상시키기 위해 필터링 기법을 제안합니다. 저자들은 모든 검색된 문장이 생성에 유용하지 않다는 점에 착안하여, String Inclusion, Lexical Overlap, Conditional Cross-Mutual Information(CXMI) 세 가지 기법을 통해 필요한 문장만을 추출하는 'Filter Context' 방법론을 개발했습니다. 이 방법론은 추가적인 모델 학습 없이도 효율적으로 작동하며, 실험을 통해 높은 성능을 입증했습니다. FilCo는 RAG 모델의 정확성과 효율성을 동시에 높이는 실용적인 접근법으로, 현업에서 중요한 기여를 할 수 있습니다. 좋은 발표 감사합니다!


  • 2024-05-15 00:31

    이번 세미나는 "Learning to Filter Context for Retrieval-Augmented Generation"으로 진행되었습니다. FilCo 방법론이 기존 Retrieval-Augmented Generation 모델의 한계를 극복하고, 검색된 문서에서 실제로 유용한 정보만을 필터링하여 성능 향상을 꾀하는 접근 방식을 제시한 점이 인상 깊었습니다. 특히, String Inclusion, Lexical Overlap, Conditional Cross-Mutual Information (CXMI) 등 세 가지 필터링 기준을 통해 어떻게 필요한 정보를 추려내는지에 대한 설명이 매우 명확했습니다. 발표자료의 깔끔함과 예시를 통한 설명이 이해를 도왔고, RAG 시스템의 발전 가능성을 보여준 훌륭한 세션으로 기억될 것 같습니다. 좋은 발표 감사합니다.


  • 2024-05-16 16:33

    이번 세미나에서는 “Learning to Filter Context for Retrieval-Augmented Generation"에 대해 소개해주셨습니다. RAG는 retrieval을 기반으로 필요한 문서를 가져오게 되는 방법론으로, 정답과 가까운 문서를 가져오는 것이 목적이나 현실적으로 정말 필요한 정보만을 가져오지는 못한다는 한계를 가집니다. 이에 대해 다양한 연구들이 진행되어 왔고, 이번에 소개해주신 방법론 또한 관련 아이디어라고 할 수 있습니다. FilCo는 정답 생성에 필요한 passage를 가져와도, 모든 문장들이 필요한 것은 아니라는 점에서 시작되어 이를 fine-grained하는 것으로 정말 필요한 문장만을 필터링하자는 아이디어를 핵심으로 합니다. 따라서 passage 자체는 이미 retrieve된 상황을 가정하고 있고, retreives passage에서 핵심을 뽑아내는 것에 초점을 둡니다. 이에 대해 passage를 문장 단위로 split하는 context filtering을 거치고 있습니다. 이는 (1) string inclusion : 문장이 정답 텍스트를 정확히 포함하는 경우 (2) lexical overlap : 문장과 정답 텍스트의 token 겹치는 정도에 따라 가장 많이 겹치는 문장 (3) conditional cross-mutual information : 문장에 정답 텍스트가 포함된 경우와 미포함된 경우 각각의 정답 output 생성 확률의 차이를 계산하여, 그 차이가 가장 큰 문장에 대한 필터링까지 총 3가지의 필터링 방법을 적용하고 있습니다. 항상 좋은 주제와 정성이 보이는 꼼꼼한 장표를 준비해주시어 유익하고 즐겁게 세미나를 들을 수 있었던 것 같습니다. 그동안 수고 많으셨습니다. 좋은 발표 감사드립니다.


  • 2024-05-22 23:12

    이번 세미나는 Learning to Filter Context for Retrieval-Augmented Generation를 주제로 진행되었습니다. 이 논문은 검색 기반 생성 모델(RAG)에서 불필요한 정보를 걸러내는 'Filter Context'라는 새로운 방법론을 제안합니다. 저자들은 모든 검색된 문장이 생성에 유용하지 않다는 점에 주목하여, String Inclusion, Lexical Overlap, Conditional Cross-Mutual Information(CXMI) 세 가지 기법을 통해 필요한 문장만을 추출하는 FilCo 방법론을 개발했습니다. 이 방법은 추가적인 모델 학습 없이도 효율적으로 작동하며, 실험을 통해 그 성능이 입증되었습니다. FilCo는 RAG 모델의 정확성과 효율성을 동시에 향상시키는 실용적인 접근법으로, 실제 업무에서도 중요한 기여를 할 수 있을 것으로 기대됩니다. 유익한 발표 준비해 주셔서 감사합니다!


  • 2024-04-30 16:16

    본 세미나는 "Learning to Filter Context for Retrieval-Augmented Generation"라는 논문을 중심으로 진행되었습니다. 해당 논문은 현업에서 가장 핫한 기술인 RAG에 대해 다루고 있으며, RAG에서 사용된 retrieved passage 중에서 output 생성에 도움이 되는 문장을 골라내는 "Filter Context"에 대해 제안하고 있습니다. 가장 중요하게 다뤄지는 가정은 "Retrieved Passage 내 모든 문장이 생성에 도움이 되진 않는다"라는 것입니다. 실제로 기존 연구들에서는 re-ranking이나 2-step retrieval을 통해 더 품질이 좋은 passage만을 생성에 활용하고 있습니다. "Filter Context" 방법론은 크게 3가지 요소로 구분됩니다. 첫 번째 String Inclusion은 Text span이 output 텍스트를 그대로 포함하고 있는지 여부이며, 두 번째 Lexical Overlap은 Text Span 간 Unigram F1 Score를 측정합니다. 마지막으로 Conditional Cross-Mutual Information은 Input에 Text span이 있는 경우와 없는 경우에 대한 정답 Output 생성 확률의 차이를 측정하고 있습니다. 총 세 filtering 방법을 이용해 각 학습 데이터 인스턴스에 대한 filtered content를 확보합니다. 가장 큰 기여점이라고 생각되는 부분은, 생성에 도움이 되는 passage를 따로 학습하지 않고 수식과 같은 방법론으로 filtering 할 수 있다는 점입니다. retriever를 학습시키는 건 많은 비용을 발용시킨다는 단점이 있기 때문입니다. 실용적인 논문 너무 잘 들었습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-05-03 14:53

    이번 세미나는 “Learning to Filter Context for Retrieval-Augmented Generation” 논문에 대하여 소개해주셨습니다. 해당 방법론은 retrieval 을 수행할 문서 내 passage의 중요도를 Conditional Cross-Mutual Information(CXMI)라는 방법을 통해 반영하는 Filter Context(FilCo)를 제안하였습니다. 방법론 소개에 앞서 retrieval task에 대한 소개와 배경지식을 잘 설명해주셔서 내용 이해에 많은 도움이 되었습니다. 세미나 시간에 질문 드린 내용에 대해서도 잘 답변주셔서 빠르게 잘못된 내용을 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2024-05-05 20:14

    이번 세미나에서는 "Learning to Filter Context for Retrieval-Augmented Generation"에 대해 다루고 있습니다. 해당 논문은 검색 기반 생성 모델(Retrieval-augmented Generation, RAG)에서 불필요하거나 방해가 되는 정보를 포함하는 검색 결과를 걸러내는 새로운 방법론인 'Filter Context'를 제시하고 있습니다. 저자들은 필터링된 문맥을 사용하여 정보 검색 과정에서 발생할 수 있는 오류를 줄이고, 결과적으로 생성 모델의 성능을 향상시키고자 합니다. 본 논문에서 매우 흥미로웠던 점은, 모든 검색된 문서(Passage)나 문장이 유용한 정보를 제공하지 않는다는 현실적인 문제를 다루고 있다는 것입니다. 이를 해결하기 위해 저자들은 세 가지 기준을 사용하여 필요한 정보만을 추출하는 'FilCo(Filter Context)' 기법을 제안하였습니다. 이는 검색된 문서 중에서 실제로 유용한 문장만을 선택하여 생성 과정에 활용한다는 점에서 매우 유용한 방법이라고 생각하였습니다. 또한, 계산 비용을 절감하면서도 성능을 유지하거나 향상시키는 데 기여한다는 점에서 상당한 실용적 가치가 있다고 판단하였습니다. 최근 RAG가 많이 부각되면서 복잡하고 다양한 데이터 소스에서 필요한 정보만을 신속하게 추출하는 기술은 매우 중요해지고 있는데, 해당 방법론이 매우 유용성이 높을 것이라고 생각합니다. 항상 재미있는 방법론을 소개해 주셔서 감사합니다. 발표 잘 들었습니다.


  • 2024-05-10 14:23

    이번 세미나는 "Learning to Filter Context for Retrieval-Augmented Generation" 논문을 중심으로 진행되었습니다. 해당 논문은 RAG 기술의 필수적인 부분인 필터링 과정을 효율적으로 개선할 수 있는 'Filter Context' 방법론을 제안합니다. 해당 방법론은 불필요한 정보를 제거하고 필요한 내용만을 추출하여 모델의 성능을 향상시키는 데 중점을 두었습니다. 특히, 검색된 문장 중 실제로 가치 있는 정보만을 선별하여 사용한다는 점에서 기존 RAG 방법론 대비 개선점이 크다 볼 수 있습니다. 또한, 세 가지 필터링 기준을 통해 효과적으로 정보를 분류하는 'FilCo' 기법은 불필요한 계산 비용을 줄이면서도 성능을 유지하거나 향상시킬 수 있는 방법으로, 매우 실용적인 접근법이라고 생각합니다. 깔끔하고 친절한 발표 자료 덕분에 수월하게 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2024-05-10 19:16

    금일 세미나에서는 'Learning to Filter Context for Retrieval-Augmented Generation'라는 논문을 소개해 주셨습니다. 해당 논문은 Retrieved된 Passge 전체 내용 중 Output 생성에 핵심이 되는 Sentence만 추출하여 Query로 사용하는 FilCo 전략을 제시하고 있습니다. Filtering 과정을 위해 먼저 학습 데이터셋을 제시하고 있습니다. 크게 1) String Inclusion, 2) Lexical Overlap, 3) Conditional Cross-Mutual Information 전략을 통해 Filtered Content를 추출하고 있으며 실험 결과로 모든 Passage 보다 Passage 단위로 Filtering하는 방식이 우수함을 보이고, Passage 내에서도 더 Fine-grained하게 Filtering하는 FilCo 전략의 우수한 것을 알 수 있었습니다. 해당 방법론을 보면서 Oracle Filtered Content를 만드는 과정 중 Input에 Text Span이 있는 경우와 없는 경우 정답 Output 생성 확률의 차이를 기반으로 Filtering을 진행하는 3) Conditional Cross-Mutual Information(CXMI) 전략이 합리적이고 흥미롭다고 생각하였고, 이를 수행하기 위해 Text Span이 있을 때, 없을 때 모두 계산해야 한다는 단점 또한 약하다고 생각될 정도로 제안되는 Filtering 방법의 효과성을 잘 보여준 논문이라고 생각이 들었습니다. 깔끔한 발표자료와 이해가 잘 되는 예시들로 인해 더욱 수월하게 이해할 수 있었던 것 같습니다. 좋은 발표 감사합니다!


  • 2024-05-12 17:44

    금일 세미나는 Retrieve된 문서들 중 실제로 생성에 도움이 되는 문서들을 선택하는 방법론을 제안하는 "Learning to Filter Context for Retrieval-Augmented Generation"을 중심으로 진행되었습니다. 구체적으로 문서를 선택하는 filter model 학습을 위한 데이터셋을 3가지 방법론을 통해서 구축하게 됩니다. 이는 정답 어휘와 중복 및 포함여부, 실제 정답문과 각 문서 간의 mutual information 등의 단순한 기법들을 이용합니다. 이와 같은 단순한 방법론을 이용해 추가적인 모델을 학습할 경우, 다양한 모델 및 벤치마크 데이터셋 상에서 일관된 성능 개선을 보이는 모습을 확인할 수 있었습니다. 기존에도 다양한 passage에 대한 refinement 및 filtering과 관련된 방법론들이 제시되었으나, 해당 연구의 경우 매우 단순한 방법들로도 충분히 성능이 개선될 수 있다는 가능성으 보여준 점이 매우 흥미로웠습니다. 좋은 발표 감사드립니다.


  • 2024-05-12 22:52

    이번 세미나에서는 "Learning to Filter Context for Retrieval-Augmented Generation"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 연구는 검색 증강 생성 기법(Retrieval-Augmented Generation, RAG)을 활용하여 검색된 Passage를 필터링하는 새로운 방법, FilCo를 제안합니다. 기존의 RAG 모델에서 Retrieval을 할 때 관련 없거나 답변에 방해가 되는 Passage를 생성 과정에 포함 시킬 수 있습니다. FilCo는 이를 해결하기 위해, 검색된 Passage 중 생성에 필요한 부분만을 선택적으로 사용하도록 설계되었습니다. 필터링은 세 가지 주요 기준 'String Inclusion', 'Lexical Overlap', 'Conditional Cross-Mutual Information (CXMI)'을 통해 이루어집니다. 해당 필터링 방법들은 복잡하지 않은 방식들로 이루어져있었으며, 데이터셋에 따라 성능의 차이를 발생시키고, 각 데이터셋에서 가장 좋은 성능을 보이는 필터링 방식이 다른 점이 흥미로웠습니다. 이러한 접근은 검색된 Passage가 생성 과정에 더욱 정확하게 기여하도록 함으로써, 불필요한 정보의 배제와 생성된 출력의 질을 향상시킵니다. 최근 RAG 관련한 연구에 대해 관심이 많이 있었는데, 관련 연구에 대해 소개시켜주셔서 재미있게 들을 수 있었습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-05-12 23:33

    이번 세미나에서는 "Learning to Filter Context for Retrieval-Augmented Generation" 논문을 소개해주셨습니다. 이 연구는 정보 검색 과정에서 주요 문장만을 선별해 활용하는 새로운 접근법을 제안합니다. 특히, 논문은 정보의 중요성을 판단하기 위해 세 가지 주요 기법을 사용합니다: 문자 포함, 어휘적 중복, 그리고 조건부 교차 상호 정보입니다. 실험 결과는 세밀한 필터링 과정이 효과적임을 보여주며, 논문에서 제안한 FilCo 전략이 어떻게 기존 방식보다 우수한 결과를 도출하는지 설명합니다. 발표자 분께서 이러한 복잡한 내용을 매우 명확하고 접근하기 쉬운 방식으로 전달해 주어 큰 도움이 되었습니다. 좋은 발표 감사합니다!


  • 2024-05-13 13:56

    이번 세미나에서는 RAG 시나리오 내에서, 언어 모델에게 도움이 되는 Document를 필터링해서 제공하기 위한 방법론을 다루고 있는 "Learning to Filter Context for Retrieval-Augmented Generation" 논문을 중심으로 진행되었습니다. 언어 모델이 생성을 위한 모든 지식을 Parametric하게 가지고 있게 하는 것은 모델 유지의 측면이나 효율성의 측면으로 생각해 보았을 때 비 현실적인 세팅이기 때문에, 오늘날 RAG는 언어 모델에게 생성을 위한 Non-Parametric한 지식을 전해주는 파이프라인으로서 중요한 의미를 지닙니다. 하지만, 생성에 도움이 되는 Document를 가지고오는 Retriever 역시 Rule-based이거나 Model-based이기 때문에 이 Retriever의 성능에 따라 언어 모델의 성능이 좌우될 수 있습니다. 특히, 생성에 도움이 되지 않는 Noisy한 Document를 전달해주는 경우, 원래 언어 모델이 가지고 있는 능력 대비, 훨씬 나쁜 출력을 내뱉게될 수 있으므로, Retrieved Documents들을 필터링하는 방법론이 중요해질 수 밖에 없는 상황입니다. 본 논문은 이러한 Documents들을 필터링할 수 있는 방법론인 FilCo를 제안했습니다. FilCo는 주어진 쿼리와 이에 대해 Retrieved된 Documents들 사이의 Lexical한 Matching을 기반으로 하기에, Rule-based하게 바로 적용시킬 수 있는 방법론이라는 장점이 있고, 직관적으로 납득이 되는 지표에 의해 Document를 간단하게 제거할 수 있는 방법론입니다. 실제 RAG를 사용해 서비스를 제공하는 시나리오를 생각해봤을 때, 최소한의 필터 역할을 할 수 있을 것이라는 생각이 들었습니다. 좋은 발표 감사합니다!


  • 2024-05-13 15:31

    이번 세미나에서는 Learning to Filter Context for Retrieval-Augmented Generation 라는 논문을 다루었습니다. 해당 논문은 RAG 방법론을 사용할 때 중요한 정보를 고르는 방법으로 'Filter Context(FilCo)'를 제안합니다. RAG는 검색된 문서 내 모든 문장이 생성에 유용하지 않다는 문제를 지적하면서 저자들은 필터링을 통해 생성 과정에 도움이 되는 문장만을 선택합니다. FilCo는 String Inclusion, Lexical Overlap, Conditional Cross-Mutual Information(CXMI)을 통해 문장을 평가합니다. 이 중에서도 문장 유무에 따른 생성 확률 차이를 측정하는 CXMI가 기존 방법보다 효율적임을 실험에서 보입니다. RAG의 세부 내용에 대해 자세히 알 수 있어 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2024-05-13 17:59

    금일 세미나는 Learning to Filter Context for Retrieval-Augmented Generation 논문을 바탕으로 진행되었습니다. Retrieval이 필요한 이유는 모델에 내재된 Knowledge의 한계를 극복하기 위함으로, 외부의 Knowledge base를 탐색함으로써 Knowledge를 보강하기 위함이라고 볼 수 있겠습니다. 이때, 이전 연구들에서는 다양성을 위하여 Retriever에 의해 반환된 Top-k개의 passage들을 generator에 입력으로 사용하고 있습니다. 그러나 이들에 대해 어떠한 filtering 없이 무분별하게 제공하기에, 종종 query와 무관하거나 정답 생성에 방해가 되는 정보를 generator에게 제공하여 성능 저하를 야기하기도 합니다. 이에 이상적인 Retrieval task가 수행되기 위해서는 Generator가 정답을 생성하기 위해 정말로 필요한 정보만을 Retriever가 제공해야만 하는 것이 매우 중요하다고 볼 수 있겠습니다. 이에 제안 모델인 FilCo에서는 Retreive된 Passage 내에서도 정답 생성에 필요한 내용을 문장 단위로 필터링하는 방법을 제안하고 있고, 더 자세하게는 String Inclusion, Lexical Overlap, Conditional Cross-Mutual Information의 3가지 요소를 통해서 진행하고 있습니다. 모든 예시를 상세하게 설명해주셨기에 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


전체 503
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10473
관리자 2020.03.12 0 10473
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9084
관리자 2020.03.12 0 9084
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10202
관리자 2020.03.12 0 10202
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 23
Junyeong Son 2025.05.08 0 23
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 104
Doyoon Kim 2025.05.01 0 104
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 212
Sunghun Lim 2025.04.24 0 212
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 161
Suyeon Shin 2025.04.21 0 161
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 188
Woongchan Nam 2025.04.16 0 188
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 365
Kiyoon Jeong 2025.04.16 0 365
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 385
Hyeongwon Kang 2025.04.09 0 385
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 383
Jaehyuk Heo 2025.04.02 0 383
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 373
Jaehee Kim 2025.04.02 0 373
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 303
Jungho Lee 2025.04.02 0 303

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호