[Paper Review] Guiding Image Captioning Models Toward More Specific Captions

Paper Review
작성자
Minjeong Ma
작성일
2025-02-19 15:22
조회
527
  1. 논문 제목
  2. Overview
    • 캡션이 이미지를 고유하게 설명하는 정보를 크게 향상시킬 수 있음을 보여주며 이미지 캡셔닝의 목표와 평가 방식에 대한 질문 제기
    • 자동 회귀 모델을 활용한 Image Captioning 모델에 Classifier-free Guidance 도입
    • Language Model Guidance를 활용해 프롬프트된 언어 모델이 얻은 확률 분포를 사용하여 Image Captioning 모델 가이드
    • CFG와 LM Guidance를 활용한 방법은 다양한 Reference-based 및 Reference-free 지표에서 Trade-off 조정
  3. 발표자료 및 발표영상
    • 발표자료: 하단 첨부
    • 발표영상:
전체 10

  • 2025-02-19 15:45

    이번 세미나는 이미지 캡셔닝을 주제로 진행되었습니다. 소개해주신 연구에서 제안하는 방법론은 Classifier-free Guidance(CFG)와 lanaguage model guidance를 도입한 점이 특징입니다. 이는 생성 모델에서 특정 조건이 있을 때와 없을 때의 확률 분포를 동시에 고려하여 부여한 조건을 얼만큼 더 고려할 지를 scale을 통해 조정할 수 있게 됩니다. 이미지 캡셔닝에서 조건은 곧 text-prompt가 될 것입니다. Language model guidance는 CFG에서 영감을 받아 본 방법론에서 제안하는 응용식 입니다. 나아가, 기존 이미지 캡셔닝 평가 지표(reference-based)가 말 그래도 자연스럽지 않은 캡션에 대해서도 높은 점수를 부여하는 경향이 있는 점을 지적하여 reference-free 한 방식으로도 함께 평가를 진행하였습니다. 다만, 왜 CFG가 더 구체적인 캡션을 생성하는 지에 대한 충분한 설명이 되어 있지 않은 느낌을 받았습니다. 발표 감사합니다.


  • 2025-02-19 22:11

    이번 세미나에서는 Guiding Image Captioning Models Toward More Specific Captions와 관련된 방법론을 제시한 논문을 중심으로 진행되었습니다. 기존 이미지 캡셔닝 모델들은 BLEU, CIDEr 같은 Reference-based 평가 지표에서 사람보다 높은 성능을 보이지만, 실제 평가에서는 여전히 사람이 작성한 캡션이 선호되는 문제가 있었습니다. 이는 기존 모델이 학습된 데이터의 한계로 인해 구체적인 표현을 충분히 반영하지 못하는 경향을 보이기 때문입니다. 본 연구에서는 이러한 한계를 극복하기 위해 **Classifier-Free Guidance(CFG)와 Language Model Guidance(LMG)**를 도입하여 캡션의 구체성을 향상시키는 방법을 제안했습니다. CFG는 캡션이 이미지에 대한 설명력을 극대화할 수 있도록 확률 분포를 조정하며, LMG는 대형 언어 모델을 활용하여 보다 자연스럽고 구체적인 캡션 생성을 유도합니다. 실험 결과, CFG를 적용한 모델은 CIDEr 등의 Reference-based 지표에서 성능이 다소 하락했지만, Reference-free 지표인 CLIPScore에서는 더 높은 성능을 기록하며, 캡션의 구체성이 증가하는 것을 확인할 수 있었습니다. 다만, 높은 CFG 값에서는 캡션이 비문법적이거나 반복적인 표현을 포함하는 문제가 발생했으며, LMG를 적용할 경우 일부 Hallucination(환각) 현상이 관찰되었습니다. 본 연구는 기존 이미지 캡셔닝 모델이 추구해야 할 목표와 평가 방식에 대한 새로운 방향성을 제시하였으며, 향후 다양한 데이터셋과의 결합을 통해 개선될 가능성이 높은 접근법으로 평가됩니다.


  • 2025-02-20 14:45

    이번 세미나는 decoding 분포를 수정하여 기존 Image Captioning 모델이 구체적인 캡션을 생성하도록 유도하여 캡션 품질을 향상시킨 “Guiding Image Captioning Models Toward More Specific Captions”라는 논문에 대한 발표를 중심으로 진행되었습니다. 기존 Image Captioning 모델의 경우 사람이 기대하는 품질이나 자연스러움을 충분히 반영하지 못하는 캡션을 생성하지만, 자동화된 평가 지표 상에서 사람보다도 높은 성능을 보이며, 평가자들은 사람이 생성한 캡션을 더 선호하게 되는 문제점들이 존재했습니다. 이는 결국 모델 학습에 사용하는 데이터셋 및 평가 지표들의 대한 한계점에 직결되는데, 해당 논문에서는 이를 해결하기 위해 자동 회귀 모델에 기반한 Classifier-free Guidance 혹은 Language Model Guidance를 활용해 프롬프트된 언어 모델이 얻은 확률 분포를 사용하여 가이드하는 방식을 사용합니다. 실제로 Image Captioning 모델을 통해 Inference를 수행해 보았을 때 모델이 이상한 캡션을 생성하고, 기존 데이터셋의 GT Captions 또한 품질이 낮고, 이를 기반으로 평가 과정에서도 문제점이 많다는 생각을 했어서 이번 연구가 수행되어야할 이유에 대해 공감이 되었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-02-23 16:37

    금일 세미나는 기존 diffusion 연구에서 널리 활용되는 Guidance 기반의 생성 방법을 captioning 분야에 적용한 "Guiding Image Captioning Models Toward More Specific Captions"을 중심으로 이루어졌습니다. 해당 논문의 주요 골자는 단순 captioning 모델은 너무 일반화된 용어를 사용하여 실제 사람의 선호도가 낮으며, 이는 reference-free 지표들을 통해 확인할 수 있다는 주장에서 시작합니다. 이를 개선하는 방식으로 classifier-free guidance를 적용할 수 있으나, 이 경우 자연어 생성 능력이 저하되어 fluency가 저하되는 문제가 있습니다. 결국 reference-free 지표와 referece-based 지표 간에는 trade-off가 존재한다는 점까지 논문에서 밝히고 있습니다. 이를 극복하기 위해 해당 논문에서는 fluency를 개선할 수 있는 LM-Guidance를 제시하고 CFG와 함께 사용할 것을 제안합니다. CFG와 비교하여 수식이나 모델 구현 상으로 복잡한 점은 없으나, 속도 측면에서 큰 모델을 추가적으로 이용해야 한다는 점에서는 다소 아쉬운 점이 존재할 수 있을 것 같습니다. 그럼에도 불구하고 해당 태스크와 메트릭에 대한 관계 파악을 문제로 삼고, 이를 극복하기 위한 직접적인 해결책을 제안 했다는 점에서 의의가 있는 논문인 것 같습니다. 좋은 발표 감사합니다.


  • 2025-02-24 14:33

    이번 세미나에서는 "Guiding Image Captioning Models Toward More Specific Captions"라는 논문을 중심으로, 기존 이미지 캡셔닝 모델들이 가지는 구체성 부족 문제를 해결하는 방법론을 소개했습니다. 기존 모델들은 자동화된 평가 지표에서 우수한 성과를 보이지만, 사람이 작성한 캡션과는 차이가 있어 실제 평가에서는 부족한 점이 있었습니다. 이를 해결하기 위해 본 연구는 Classifier-free Guidance(CFG)와 Language Model Guidance(LMG)를 도입하여 캡션의 구체성을 향상시켰습니다. CFG는 확률 분포를 조정하여 이미지에 대한 구체적인 설명을 생성하게 하고, LMG는 대형 언어 모델을 활용해 자연스럽고 구체적인 캡션을 유도합니다. 실험 결과, CFG를 적용한 모델은 Reference-free 지표에서 높은 성능을 보였으나, 높은 CFG 값에서 비문법적이거나 반복적인 표현이 발생하는 문제도 있었습니다. 이 연구는 이미지 캡셔닝 평가 지표와 모델 학습 방식에 새로운 방향성을 제시하며, 향후 다양한 데이터셋과의 결합을 통해 개선될 가능성이 큽니다.


  • 2025-02-25 21:17

    금일 세미나는 "Guiding Image Captioning Models Toward More Specific Captions" 논문을 바탕으로 진행되었습니다. 기존의 Image captioning 연구들의 가장 큰 문제점은 Reference-based Metric 상에서는 좋은 성능을 보이나, 실질적으로는 사람이 기대하는 품질이나 자연스러움을 충분히 반영하지 못하고 있었습니다. 즉, 전통적인 평가지표의 수치상으로는 모델 개선이 이루어지고 있으나, 실질적인 성능을 그렇지 못하고 있었습니다. 이에 Image Captioning 모델이 Reference-based 평가와 Reference-free 평가 지표간의 Trade-off를 조정하면서 최적의 균형점을 찾는 과정이 중요해졌고, 이 과정을 위하여 제안 연구에서는 Classifier-free Guidance를 이용하고 있습니다. 이는 기존 Image captioning의 추론 과정을 수정하여, 조건부 정보(텍스트 프롬프트)가 이 있을 때와 없을 때의 확률 분포를 동시에 고려하여, 특정 조건을 얼마나 더 강하게 반영할지 조정할 수 있도록 함으로써, 보다 구체적인 캡션을 생성할 수 있도록 하는 목적을 가지고 있습니다. 또한, CFG에서 영향을 받아 LM Guidance를 적용하고 있습니다. 이는 언어 모델에게 하여금 보다 자연스럽고 문법적으로 유창한 캡션을 생성할 수 있도록 유도하는 역할을 하고 있었습니다. 생소한 개념들이 많아 이해가 어려웠지만 상세하게 장표를 구성해준 덕분에 쉽게 이해할 수 있었습니다. 좋은 발표 정말 감사드립니다.


  • 2025-02-25 21:41

    이번 세미나에서는 "Guiding Image Captioning Models Toward More Specific Captions" 논문이 발표되었습니다. 기존 이미지 캡셔닝 모델이 구체성이 부족한 문제를 해결하기 위해 Classifier-free Guidance(CFG)와 Language Model Guidance(LMG)를 도입한 점이 특징적이었습니다. CFG는 캡션이 이미지 정보를 더 구체적으로 반영하도록 확률 분포를 조정하며, LMG는 자연스러움을 유지하면서 보다 세밀한 설명을 생성하도록 유도합니다. 실험 결과, Reference-free 평가 지표에서 성능이 향상되었으나, 높은 CFG 값에서는 반복적이거나 비문법적인 표현이 발생하는 문제가 있었습니다. 기존 평가 방식과 모델 학습의 한계를 분석하고 새로운 방향성을 제시했다는 점에서 의미 있는 연구였으며, 정성스럽게 준비된 발표 덕분에 쉽게 이해할 수 있었습니다. 좋은 발표 감사합니다!


  • 2025-03-03 16:57

    이번 세미나는 "Guiding Image Captioning Models Toward More Specific Captions" 논문에 대해 소개해주셨습니다. 본 연구에서는 현재 captioning 모델의 생성하는 caption의 다양성 및 구체성 부족에 대한 문제를 지적하고 있습니다. 주로 많이 사용되는 captioning task에서의 평가지표로는 ROUGE, CiDer와 같은 reference-based metric이지만 해당 평가지표들은 ground truth에 의존하기 때문에 정답 데이터에서도 구체적인 표현 또는 다양성이 부족한 경우 이를 개선하기 어려운 문제가 있습니다. 따라서 본 연구에서는 reference-free metric도 함께 고려하여 두 평가 지표간 trade off를 개선하기 위해 LM-Guidence를 제시하였습니다. 좋은 발표 감사합니다.


  • 2025-03-01 15:22

    이번 세미나에서는 ICCV 2023에서 발표된 "Guiding Image Captioning Models Toward More Specific Captions" 논문을 소개해주셨습니다. 이 연구는 이미지 캡셔닝 모델이 모호하고 일반적인 설명을 생성하는 한계를 개선하여, 더 구체적인 캡션을 생성하는 방법을 제안했습니다. 특히, classifier-free guidance(CFG)와 언어 모델 기반 가이던스를 활용하여, 기존 학습 과정에 최소한의 변경만으로도 캡션의 구체성을 높일 수 있음을 보였습니다. 핵심 아이디어는 CFG를 통해 캡션 생성 시 이미지와의 조건부 및 무조건부 분포를 모두 활용하고, 디코딩 과정에서 가이던스 스케일을 조절하여 보다 구체적인 설명을 유도하는 것입니다. 이를 통해 CLIPScore와 같은 reference-free 평가에서 성능이 향상되었으며, 캡션을 기반으로 한 이미지 검색 성능도 개선되었습니다. 다만, CIDEr와 같은 reference-based 메트릭에서는 성능 저하가 관찰되었습니다.또한, 언어 모델을 활용한 가이던스를 통해 디코딩을 보완함으로써, CFG에서 발생하는 reference-free와 reference-based 평가 간의 균형을 맞추는 방법을 제시한 점이 인상적이었습니다.이 논문은 기존 모델을 크게 변경하지 않고도 캡션의 구체성을 향상시키는 방안을 제시했다는 점에서 실용적인 기여를 했다고 생각됩니다. 좋은 발표 감사합니다!


  • 2025-03-01 15:22

    이번 세미나에서는 “Guiding Image Captioning Models Toward More Specific Captions” 논문을 중심으로, 기존 이미지 캡셔닝 모델의 일반적인 표현 문제를 해결하기 위한 Classifier-Free Guidance(CFG)와 Language Model Guidance(LMG) 기법을 활용한 새로운 접근법이 소개되었습니다. 기존 모델들은 BLEU, CIDEr 같은 Reference-based 지표에서 높은 성능을 기록했지만, 실제 평가에서는 구체성이 부족하여 사람이 작성한 캡션보다 선호도가 낮았습니다. 이를 해결하기 위해 CFG를 활용해 이미지에 대한 설명력을 조정하고, LMG를 통해 보다 유창하고 자연스러운 캡션을 생성하는 방식을 제안하였습니다. 실험 결과, CFG를 적용한 모델은 CIDEr 성능이 다소 감소했지만 CLIPScore(Reference-free 지표)에서 향상된 성능을 보이며, 보다 구체적인 캡션을 생성할 수 있음을 확인했습니다. 다만, 높은 CFG 값에서는 비문법적 표현이 증가하고, LMG 적용 시 환각(Hallucination) 현상이 발생하는 한계가 있었습니다. 본 연구는 캡션 모델이 추구해야 할 방향성과 평가 방법에 대한 새로운 통찰을 제시하였으며, 향후 다양한 데이터셋과의 결합을 통해 발전 가능성이 높은 연구라고 생각됩니다. 좋은 발표 감사합니다!


전체 513
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11213
관리자 2020.03.12 0 11213
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9852
관리자 2020.03.12 0 9852
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10938
관리자 2020.03.12 0 10938
510
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (9)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 108
Jaewon Cheon 2025.06.27 0 108
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 283
Minjeong Ma 2025.06.07 0 283
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 36
Minjeong Ma 2025.06.02 0 36
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 33
Kiyoon Jeong 2025.06.02 0 33
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 33
Woongchan Nam 2025.06.02 0 33
505
비밀글 [Rehearsal] 석사학위 논문심사 - 이상민 (21)
SangMin Lee | 2025.06.02 | 추천 0 | 조회 34
SangMin Lee 2025.06.02 0 34
504
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung | 2025.05.31 | 추천 0 | 조회 364
Siyul Sung 2025.05.31 0 364
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 337
Woojun Lee 2025.05.20 0 337
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 314
Jinwoo Park 2025.05.16 0 314
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im | 2025.05.15 | 추천 0 | 조회 300
Hun Im 2025.05.15 0 300

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호