발표자료 및 발표영상
| 번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
| 공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 13526
|
관리자 | 2020.03.12 | 0 | 13526 |
| 공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 12271
|
관리자 | 2020.03.12 | 0 | 12271 |
| 공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 13211
|
관리자 | 2020.03.12 | 0 | 13211 |
| 506 |
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 39
|
Woongchan Nam | 2025.06.02 | 0 | 39 |
| 505 |
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 38
|
SangMin Lee | 2025.06.02 | 0 | 38 |
| 504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 1267
|
Siyul Sung | 2025.05.31 | 0 | 1267 |
| 503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 831
|
Woojun Lee | 2025.05.20 | 0 | 831 |
| 502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 1030
|
Jinwoo Park | 2025.05.16 | 0 | 1030 |
| 501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 915
|
Hun Im | 2025.05.15 | 0 | 915 |
| 500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 1395
|
Junyeong Son | 2025.05.08 | 0 | 1395 |
| 499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (16)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 1010
|
Doyoon Kim | 2025.05.01 | 0 | 1010 |
| 498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 1984
|
Sunghun Lim | 2025.04.24 | 0 | 1984 |
| 497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 1064
|
Suyeon Shin | 2025.04.21 | 0 | 1064 |
이번 세미나에서는 "Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding" 논문을 소개해주셨습니다. 본 논문에서는 대규모 비전-언어 모델(LVLM)이 별도의 학습이나 구조 수정 없이도, referring expression을 기반으로 객체의 위치를 추론할 수 있다는 점을 실험적으로 입증하고 있습니다. 특히 attention head 수준에서 위치 정보를 해석하고, 이를 기반으로 visual grounding을 수행한다는 아이디어는 기존의 fine-tuning 기반 접근 대비 계산 효율성과 모델 일반화 가능성 측면에서 매우 좋은 대안으로 느껴졌습니다. Attention Sum과 Spatial Entropy를 기준으로 localization head를 선별하고, 추가 학습 없이도 bounding box나 segmentation을 생성하는 방식은 LVLM 내부 메커니즘을 적극적으로 활용한 실용적인 접근이라고 생각합니다. 향후 연구에서 attention 기반 object localization을 다른 멀티모달 태스크로 확장할 가능성도 고려할 수 있을 것 같습니다. 좋은 발표 감사합니다!
이번 세미나에서는 "Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding" 논문을 소개해주셨습니다. 본 연구는 LVLM이 별도 학습이나 구조 변경 없이 소수의 어텐션 헤드만으로 Visual Grounding을 수행할 수 있음을 실험적으로 입증했습니다. Attention Sum과 Spatial Entropy를 통해 Localization Head를 선별하고, 추가 학습 없이 bounding box 예측을 수행하는 간결한 접근 방식이 특히 인상적이었습니다. 또한 소수 헤드의 스파스 활성화 현상을 통해 모델 내부 메커니즘의 해석 가능성과 실용적 활용 가능성을 높였다는 점에서도 의미 있는 기여를 했다고 생각합니다. 향후 다양한 멀티모달 태스크로의 확장 가능성과 실세계 응용 연구로 이어지기를 기대합니다. 좋은 발표 감사합니다!
이번 세미나에서는 사전학습된 대형 비전-언어 모델(LVLM)에서 추가 학습 없이 시각적 대상의 위치를 포착하는 방법론을 제시한 논문 Your Large Vision-Language Model Only Needs A Few Attention Heads for Visual Grounding을 중심으로 진행되었습니다. 본 연구는 LVLM의 디코더 내부 어텐션 헤드 중 일부가 자연스럽게 Visual Grounding 역할을 수행한다는 점에 착안하여, 학습 없이도 정확한 grounding 결과를 도출할 수 있는 프레임워크를 제안합니다. 이를 위해 이미지와 텍스트 간 상호작용을 수치적으로 분석하고, 특정 헤드들이 이미지의 특정 영역에 집중하며 군집화되는 특성을 기반으로 "localization head"를 선별합니다. 다양한 LVLM 기반 실험에서 본 방법이 기존 fine-tuning 방식보다 경쟁력 있는 성능을 보였으며, Visual Grounding을 위한 새로운 방향성을 제시하였습니다.
이번 세미나에서는 “Your Large Vision-Language Model Only Needs A Few Attention Heads for Visual Grounding” 논문을 중심으로 발표가 진행되었습니다. 본 연구는 사전학습된 대형 비전-언어 모델(LVLM) 내부의 일부 Attention Head가 자연스럽게 Visual Grounding 기능을 수행한다는 점에 착안하여, 추가 학습 없이 객체 위치를 포착하는 새로운 방법론을 제안했습니다. 구체적으로, Attention Sum과 Spatial Entropy라는 두 기준을 이용해 각 Head의 Localization 능력을 정량화하고, 이 중 높은 성능을 보이는 Localization Head를 선별해 Visual Grounding을 수행합니다. 이 접근은 모델 수정이나 Fine-tuning 없이도 RefCOCO, RefCOCO+ 등 다양한 벤치마크에서 기존 SOTA 모델과 유사하거나 더 나은 성능을 달성하며, LVLM이 가진 잠재력을 실험적으로 입증했습니다. 특히, Attention Head들이 서로 다른 기능을 담당하고 있음을 정량적으로 분석하고 이를 Task에 직접 활용했다는 점이 인상 깊었으며, 향후 다른 Downstream Task에서도 유사한 방법론이 적용될 수 있을 가능성을 보여주었습니다. 복잡한 질의 상황에서도 Reasoning 기반 Visual Grounding으로 확장될 여지가 있다는 점에서 더욱 흥미로운 연구였다고 생각합니다. 좋은 발표 감사합니다!
이번 세미나에서는 Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding 논문을 중심으로, 대형 비전-언어 모델(LVLM)의 시각적 그라운딩 능력에 대한 새로운 관점을 소개해주셨습니다. 이 연구는 복잡한 모델 구조나 추가적인 학습 없이도, LVLM 내 일부 어텐션 헤드만으로도 효과적인 시각적 그라운딩이 가능하다는 점을 밝혀내어 인상 깊었습니다. 발표에서는 시각적 그라운딩이란 자유로운 형태의 텍스트 설명에 따라 이미지 내 관련 객체를 정확히 찾아내는 작업임을 설명하셨습니다. 기존에는 이러한 작업을 위해 LVLM을 별도로 파인튜닝하거나 추가적인 컴포넌트를 도입해야 했지만, 본 연구는 사전 학습된 LVLM의 일부 어텐션 헤드만으로도 이 작업이 가능하다는 점을 강조했습니다. 본 연구에서는 '로컬라이제이션 헤드'라 불리는 특정 어텐션 헤드들이 텍스트와 관련된 이미지 영역을 일관되게 포착한다는 사실을 발견했습니다. 이러한 헤드들은 이미지에 대한 어텐션 집중도와 공간적 엔트로피를 기준으로 식별되었으며, 이를 통해 별도의 학습 없이도 시각적 그라운딩이 가능하다는 점을 실험적으로 입증하셨습니다. 또한, 발표에서는 이러한 접근 방식이 다양한 LVLM 아키텍처에 적용 가능하며, 기존의 파인튜닝 기반 방법들과 비교하여도 경쟁력 있는 성능을 보인다는 점을 강조하셨습니다. 이는 LVLM이 텍스트-이미지 관계를 깊이 이해하고 있음을 시사하며, 모델의 내재된 능력을 효과적으로 활용할 수 있는 새로운 방향을 제시해주셨습니다. 이번 발표는 LVLM의 시각적 그라운딩 능력에 대한 새로운 통찰을 제공해주었으며, 모델의 효율적인 활용 가능성에 대해 다시 한번 생각해보게 하는 계기가 되었습니다. 좋은 발표 감사합니다!
이번 세미나는 "Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding"라는 논문을 다루어주셨습니다. LVLM의 내부 attention 메커니즘만으로도 시각적 지시 표현을 효과적으로 이해하고 객체를 찾아낼 수 있다는 흥미로운 가능성을 다루었습니다. 별도의 학습이나 구조 수정 없이, cross-attention head 일부의 집중 양상만을 분석하여 visual grounding을 수행한 접근이 인상 깊었습니다. 특히 attention sum과 spatial entropy라는 두 기준을 통해 localization head를 선별하는 방식이 단순하면서도 설득력 있게 느껴졌습니다. 실험 결과에서도 fine-tuned 모델들과 유사한 성능을 보이며, training-free 방식의 새로운 가능성을 보여주었고, 기존 방법의 복잡성과 비교해 훨씬 가볍고 효율적인 방식이라는 점에서 실용적 가치도 커 보였습니다. 좋은 발표 감사드립니다.
이번 세미나는 VLM 모델들의 attention pattern만을 이용하여 visual grounding task 수행 측정이 가능함을 보이는 "Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding"을 중심으로 진행되었습니다. 다양한 VLM 모델들이 LLM을 기본 구조로 하여 prompt로 입력된 태스크를 수행할 수 있게 설계 및 학습되어 있습니다. 본 논문에서는 이에 대해 prompt의 마지막 토큰을 기준으로 각 image patch에 가하는 attention weight만 가지고도 visual grounding이 가능함을 보이고 있습니다. 구체적으로는 attention head 별 threshold를 곡률을 기준으로 선택하고, 해당 헤드들 중에서도 상위 3개의 헤드만 선별하여 사용하게 됩니다. 또한, 단순 attention map의 경우 object의 형상을 따르지 않는 경우가 다수 있으므로, 이를 convex hull 형태로 변환하여 최종적인 예측 boundary box로 사용하고 있습니다. 성능을 살펴보면 놀랍게도 finetuning method들과 유사한 성능을 보이면서 매우 높은 값을 보이고 있습니다. 실제로 해당 태스크들을 attention head만을 이용해야 한다는 주장보다는 기존의 vllm 모델들이 매우 우수한 attention 성능을 보임을 확인할 수 있고, 이를 더 극대화하는 향후 연구들의 좋은 발판이 될 수 있을 것이라 생각합니다. 좋은 발표 감사드립니다.
이번 세미나는 "Your Large Vision‑Language Model Only Needs A Few Attention Heads For Visual Grounding” 논문에 대해 소개해주셨습니다. 복잡한 구조나 추가 학습 없이도 LVLM 내부의 일부 attention head만으로 시각적 지시 표현에 따라 객체를 찾아낼 수 있다는 내용의 논문을 다뤘습니다. 특히 attention sum과 spatial entropy라는 직관적인 기준을 통해 의미 있는 head를 선별하고, 이들로부터 생성된 attention map을 활용해 bounding box와 segmentation mask를 생성하는 접근이 흥미로웠습니다. 실험 결과를 보면 training-free임에도 불구하고 기존 fine-tuning 기반 방법들과 유사하거나 더 나은 성능을 보인 점이 인상 깊었고, 다양한 모델 구조에서도 일관된 결과가 나온다는 점에서 LVLM의 잠재력을 다시금 느낄 수 있었습니다. 개인적으로는 LVLM의 attention head 각각이 고유한 역할을 가지고 있다는 점을 실험적으로 보였다는 점에서 의미가 크다고 생각하며, 앞으로도 이런 방식의 해석 가능하고 효율적인 활용법이 더 다양하게 연구되면 좋겠다는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 "Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding" 라는 논문에 대한 소개를 중심으로 진행되었습니다. 해당 연구는 LVLM(Large Vision-Language Model)이 별도의 추가 학습이나 구조 변경 없이, 내부의 일부 attention head만으로도 객체의 위치를 정확히 찾아낼 수 있다는 점을 강조하였습니다. 특히 발표에서 설명된 것처럼, 수천 개의 attention head 중에서 Attention Sum과 Spatial Entropy라는 두 지표를 통해 localization에 유효한 head를 선별하고, 이를 기반으로 bounding box를 생성하는 방식은 매우 직관적이면서도 실용적이라는 인상을 주었습니다. 복잡한 fine-tuning 과정 없이도 기존 SOTA 수준에 근접하거나 능가하는 성능을 보였다는 점이 인상 깊었습니다. 이미 학습된 모델 내부의 잠재력을 단순한 방식으로 끌어낼 수 있다는 점은 향후 연구 방향을 여러 방면으로 제시해줄 수 있는 기여가 큰 연구라 생각되었습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나는 Visual Grounding 분야에서 LVLM의 특정 Attention Head만을 활용해서 효과적인 Training-Free Visual Grounding 모델을 제안한 “Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding”라는 논문에 대한 발표를 중심으로 진행되었습니다. 기존 LVLM 모델 기반 Visual Grounding 방법론들은 좋은 성능을 보이지만, 모델 구조에 대한 수정 및 미세 조정 단계를 필요로 합니다. 따라서 해당 연구에서는 LVLM 내 일부 Attention Head들이 텍스트 의미와 관련된 이미지 영역을 잘 포착하는 “Localization Head”로써 기능한다면, 해당 Head만을 이용해 추가적인 학습 없이 활용하는 것을 목적으로 합니다. 이를 위해 우선 Attention Head별 “이미지에 집중하는 정도”와 “집중하는 영역이 군집을 이루는 정도”를 정량화합니다. 이후 해당 Criteria를 기준으로 Selection Frequency를 계산하고, 이 값이 큰 Head를 Localization Head로 정의한 후 Visual Grounding을 수행합니다. 여러 연구들을 통해 Vision Encoder 내 Attention Head들이 집중 혹은 수행하는 역할이 다른 것이 알려져 있는데, 이러한 점에서 착안하여 학습 없이 Visual Grounding 모델을 구성한다는 것이 의미 있는 연구 과정이 되었다는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
LLM을 넘어 LVLM이 시각 정보의 semantics를 어떻게 처리하는지를 분석한 것이 매우 인상깊은 논문이었습니다. 소수의 localization head가 집중적으로 활성화되는 것이 LLM에서 소수의 FFN 파라미터가 주로 활성화되는 경향과 비슷하다고 느껴졌고, sparse한 활성화 현상의 발현 위치의 차이는 데이터의 특성에서 기인한 것인지 개인적으로 궁금해졌습니다. Selection frequency를 통해 localization head를 선별하는 방법과, 이를 이용해 visual grounding을 수행하는 알고리즘 모두 합리적이라 생각되었으며, 상당히 정확한 결과가 나온 듯해 신기했습니다. 연구실에서 스터디 중인 XAI와도 연결점이 있는 연구인 듯해, 좋은 인사이트를 주는 세미나였던 것 같습니다. 좋은 발표 감사합니다!
이 논문은 LVLM 내 일부 Attention Head만으로도 효과적인 Visual Grounding이 가능하다는 점을 밝히며, 복잡한 모델 수정 없이도 성능을 확보할 수 있는 Training-Free 접근을 제안한 점이 인상적이었습니다. 특히 Attention Head별로 이미지 집중도와 군집도를 정량화해 Localization Head를 선별하고, 이를 통해 Grounding을 수행하는 방식은 간결하면서도 설득력 있었습니다. 소수의 Head만이 의미 있는 정보를 담당한다는 점은 LLM의 sparse 활성화와도 유사해 흥미로웠고, Vision-Language 모델 해석 측면에서도 좋은 인사이트를 제공했다고 생각합니다.
이번 세미나에서는 LVLM이 학습 없이 시각적 지시 표현을 이해하고 객체를 정확히 찾아낼 수 있는지 탐구하는 'Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding’ 모델에 대하여 발표해 주셨습니다. 기존 Visual Grounding 방식들이 대부분 Fine-tuning이나 복잡한 구조 변경을 필요로 했던 것과 달리, 이 논문은 오직 LVLM 내부의 일부 Attention Head만을 활용해 Bounding Box나 Segmentation Mask를 생성하는 간결한 접근을 제안했습니다. Attention Sum과 Spatial Entropy라는 직관적인 기준으로 Localization Head를 선별하고, 이를 기반으로 실질적인 Visual Grounding 성능을 확보한 점은 그 자체로 실용적이며 재현 가능한 방식이라는 인상을 주었습니다. 무엇보다도 Training-free임에도 불구하고 RefCOCO, RefCOCO+ 등 다양한 벤치마크에서 SOTA 모델들과 유사하거나 더 나은 성능을 보였다는 점은 LVLM의 잠재력을 다시금 체감하게 해줬습니다. 발표에서 언급된 것처럼, LVLM의 Attention Head가 각기 다른 역할을 담당하고 있다는 사실을 실험적으로 확인하고 이를 기능적으로 활용했다는 점에서 학계적 기여도 크다고 생각됩니다. 향후 다양한 Downstream Task에서 다른 종류의 Head들도 유사한 방식으로 분석된다면, 모델을 학습하지 않고도 다양한 Task에 활용할 수 있는 길이 열릴 수 있을 것으로 생각됩니다. 개인적으로는 Reasoning Segmentation과 같이 복잡한 질의에서도 경쟁력 있는 성능을 보였다는 점에서, 이 접근 방식이 단순한 Localization을 넘어 추론 기반의 시각적 이해로도 확장 가능하다는 가능성에 특히 매력을 느꼈다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.
LVLM의 일부 attention head만으로도 별도의 학습 없이 시각적 지시 표현을 이해하고 객체의 위치를 효과적으로 찾아낼 수 있다는 점이 매우 인상 깊었습니다. Attention sum과 spatial entropy를 활용해 localization head를 선별하고, 이를 기반으로 visual grounding을 수행하는 접근은 구조적으로 간결하면서도 실용적인 방법론이라 흥미롭게 다가왔습니다. Fine-tuning 없이도 기존 SOTA 모델과 유사하거나 더 나은 성능을 달성한 실험 결과는 해당 연구의 가능성과 기여를 잘 보여주는 대목이라 생각됩니다.
개인적으로 Vision-Language Model에 관심을 가지고 있었고, 언어 모델의 능력을 활용해 vision task를 해결하는 연구 방향에 주목하고 있었기에 더욱 흥미롭게 들었던 세미나였던 것 같습니다. 재밌는 발표 준비해 주셔서 감사합니다 😊
오늘 세미나에서는 LVLM 내부의 일부 어텐션 헤드만을 활용해 추가 학습 없이도 효과적인 Visual Grounding을 달성한 ‘Your Large Vision‑Language Model Only Needs A Few Attention Heads For Visual Grounding’ 논문이 소개되었습니다. 발표를 통해 어텐션 합계와 공간 엔트로피로 Localization Head를 선별하고 이를 그대로 Bounding Box 예측에 활용하는 간결한 파이프라인이 RefCOCO 시리즈 등 다양한 벤치마크에서 기존 파인튜닝 기반 방법에 필적하는 성능을 보였다는 점이 인상적이었습니다. 특히 소수의 헤드가 텍스트 의미와 대응되는 이미지 영역에 집중한다는 사실은 LLM에서 관찰되던 스파스 활성화 현상을 시각‑언어 모델에서도 확인했다는 의미가 있으며, 파라미터 업데이트 없이도 모델 잠재력을 끌어내는 방법이라는 점에서 학계‑산업계 모두에 실용적 가치가 크다고 느꼈습니다. 다만 어텐션 기반 선택 기준이 특정 데이터셋에 최적화된 것은 아닌지, 다양한 도메인 이미지나 복잡한 문장 구조에서도 동일한 효과가 유지될지에 대한 추가 검증이 필요해 보였습니다. 향후에는 Localization Head를 활용해 설명 가능성을 높이거나, 다른 다운스트림 태스크에서 비슷한 헤드 선별 전략을 적용해 모델 해석과 성능을 동시에 확보하는 연구가 이어지길 기대합니다. 좋은 발표 감사합니다.
이번 세미나에서는 "Your Large Vision‑Language Model Only Needs A Few Attention Heads For Visual Grounding” 논문을 소개해주셨습니다. 본 연구는 기존의 Visual Grounding 방법들이 일반적으로 추가적인 파인튜닝이나 복잡한 구조 변경을 필요로 했던 것과 달리, LVLM 내부에서 일부 어텐션 헤드만을 선택하여 추가 학습 없이 효과적으로 시각적 지시 표현을 이해하고 객체를 정확히 찾을 수 있음을 보여주었습니다. Attention Sum과 Spatial Entropy라는 직관적인 지표를 통해 효과적인 Localization Head를 식별한 후, 이를 기반으로 Bounding Box 예측을 수행하는 간결한 방법으로 RefCOCO 시리즈 등 다양한 벤치마크에서 기존 파인튜닝 기반 방법에 필적하거나 뛰어난 성능을 나타냈다는 점이 특히 인상 깊었습니다. 또한, 소수의 Attention Head가 이미지 내 의미적으로 관련된 영역에 집중하는 스파스 활성화 현상을 시각-언어 모델에서도 확인했다는 점에서 모델의 해석 가능성과 실용적 가치도 높다고 생각됩니다. 향후에는 다양한 도메인이나 복잡한 문장 구조에서도 이 방법의 효과성이 유지되는지 추가 검증이 이루어지고, 이를 기반으로 다른 다운스트림 태스크나 설명 가능한 AI 분야에도 적용되는 연구가 확대되기를 기대합니다. 좋은 발표 감사합니다.
금일 세미나는 "Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding"을 바탕으로 진행되었습니다. 해당 연구에서는 Large Vision-Language Model을 활용하여 추가적인 fine tuning없이 Visual grounding을 수행할 수 있는 방법을 제안하고 있습니다. 이때, Visual grounding이란 텍스트로 지칭해야 하는 대상을 이미지에서 포착해야하는 과업을 의미합니다. 제안 연구에서는 먼저 LVLM의 decoder 내 각 어텐션 헤드에서 "이미지-텍스트 토큰 사이의 상호작용을 포착"하는 방법에 주목하였고, 특정 레이어의 특정 attention head의 이미지-텍스트 상호작용을 조사하고자 텍스트 쿼리와 이미지 토큰의 key value간 attention weight를 계산하고 있었습니다. 이를 통하여 LVLM 내 visual grounding 능력을 가진 특정 어텐션 헤드를 최초로 발견하며, 이를 통하여 식별하는 방법을 제안하고 있습니다. 이 과정에서 추가적인 훈련 없이 단 3개의 지역화 헤드만으로 효과적인 visual grounding을 수행하는 간단한 프레임워크 제안합니다. 이런 모델의 세부 구조를 분석하는 연구는 항상 인사이트를 도출하는데 큰 도움을 주는 것 같습니다. 좋은 발표 정말 감사드립니다.