[Paper Review] Interpreting CLIP's Image Representation via Text-Based Decomposition

Paper Review
작성자
Kiyoon Jeong
작성일
2024-07-19 00:59
조회
1492
1. 논문 제목: Interpreting CLIP's Image Representation via Text-Based Decomposition (ICLR 2024 Oral)
2. Overview
  • CLIP의 image encoder 내 요소들이 최종 representation을 생성하는데 얼마나 기여하는가를 밝힌 연구
    • image representation은 MSA 연산결과와 MLP 연산결과의 합으로 표현될 수 있음(skip-connection으로 인해)
    • 이 두 요소 중 MLP 연산결과는 거의 중요하지 않고, MSA 연산결과가 image representation에 있어서 압도적으로 중요함을 밝힘
    • 또한 Self-Attention의 Attention head 별로 집중하는 이미지 내 요소(특징)이 실제로 다름을 명시적으로 밝힘
3. 발표자료 및 발표영상
  • [1] 발표자료: 하단 첨부
  • [2] 발표영상: 추후 첨부
전체 14

  • 2024-07-22 11:33

    이번 세미나에서는 CLIP 모델의 이미지 인코더 구조를 깊이 분석하면서, 이미지 표현 과정에서 중요한 역할을 하는 구성 요소들에 대해 명확히 해석한 ‘Interpreting CLIP’s Image Representation via Text-Based Decomposition’ 논문에 대해서 발표해 주셨습니다. 이미지 표현 과정에서 Multi-Head Self-Attention(MSA)과 MLP(Modular Linear Perceptron) 사이의 기여도를 비교 분석하는 부분은 매우 인상적이었습니다. MSA가 MLP보다 훨씬 중요하다는 사실을 실험을 통해 증명하였으며, 특히 뒷 단의 4개의 레이어가 가장 많은 영향을 미친다는 것을 증명해 내었습니다. 해당 논문의 가장 흥미로운 부분은 각 head의 기능을 텍스트 설명을 통해 분해하고 이해하는 ‘TEXTSPAN’을 도입한 것이었습니다. 이는 이미지와 텍스트 간의 상호작용을 더 깊이 이해하고, 이를 통해 이미지 인식 및 분류 과정을 개선할 수 있는 가능성을 열어줍니다. 특정 head가 특정 이미지 특성에 얼마나 집중하는지 명확하게 보여주며, 이를 통해 보다 정밀한 이미지 분석과 이해를 가능하게 만든 점이 인상깊었습니다. 실제로 실험 결과를 살펴보았을 때, 각 Attention head는 이미지의 다른 요소들, 예를 들어 색상이나 형태 등에 집중하는 것을 확인할 수 있었습니다. 이러한 정보는 모델의 내부 작업을 이해하고, 그 메커니즘을 조정하여 특정 응용에 맞게 최적화할 수 있는 방법이라고 생각합니다. 또한, 이미지의 특정 특성을 무시하고자 할 때, 예를 들어 배경과 객체를 분리하여 각각에 집중하게 할 수 있는 가능성도 있을 것이라 생각합니다. 흥미로운 주제로 발표해 주셔서 감사합니다.


  • 2024-07-22 15:44

    금일 세미나는 CLIP의 image representation에 미치는 각 레이어의 영향력을 확인하기 위해 Text description을 이용하는 "Interpreting CLIP's Image Representation via Text-Based Decomposition"을 중심으로 진행되었습니다. 특히, ViT 구조에는 self attn과 mlp 레이어의 결합으로 구성되어 있어, 이 중 각 레이어에서 발생하는 연산의 영향력을 확인하고 있습니다. 그 결과 마지막 4개의 self attn 레이어의 영향력이 무척 크다는 것을 확인하고, 이에 대한 해석력을 text description으로 확보하는 text-span이라는 방법론을 제시합니다. 아이디어 자체는 text descrition을 축으로 차원을 단계적으로 축소하는 기존 머신러닝 기반의 방법론을 차용하고 있으나, 실제 결과물에서는 매우 높은 설명력을 보이는 것을 알 수 있습니다. 이를 기반으로 정보를 수정하는 등의 작업이 가능한 점을 보이는데, 최근 llm 연구들에서 직접 mlp 레이어를 수정하여 지식체계를 수정하는 시도들과 유사해보였습니다. 좋은 발표 감사합니다.


  • 2024-07-27 20:32

    이번 세미나에서는 "Interpreting CLIP's Image Representation via Text-Based Decomposition"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 논문은 CLIP의 Image Encoder 내에서 Multi-Head Self-Attention과 MLP의 각 요소가 이미지 Representation에 미치는 영향을 분석합니다. 특히, Multi-Head Self-Attention의 결과가 MLP의 결과보다 중요하다는 점을 실험을 통해 강조하였으며, Multi-Head Self-Attention의 각 Attention head가 이미지 내 다른 요소에 집중한다는 점도 명확히 밝혔습니다. 해당 논문에서는 'TEXTSPAN' 알고리즘을 통해 각 head의 기능을 Text로 분해하고 분석하였습니다. 이 접근 방식은 특정 이미지 특성에 집중하는 각 head의 역할을 명확하게 파악하여, 보다 정밀한 이미지 분석이 가능하게 합니다. 특정 Head는 '형태', 특정 Head는 '색'에 집중한다는 결과가 존재하였지만, 개인적인 생각으로 해당 과정에서 사용한 데이터가 충분하지 못했다고 생각합니다. 그럼에도 각 Head의 역할을 정성적으로 분석하여 표현한 점이 흥미로웠고 인상 깊었습니다. 좋은 발표 준비해 주셔서 감사합니다.


  • 2024-07-28 14:55

    해당 세미나는 "Interpreting CLIP's Image Representation via Text-Based Decomposition"라는 논문을 중심으로 진행되었습니다. 특히 CLIP의 image encoder 내 요소들이 최종 representation을 생성하는데 얼마나 기여하는가를 밝힌 연구입니다. 이를 위해 image representation은 MSA 연산결과와 MLP 연산결과의 합으로 표현될 수 있다는 점과, 두 요소 중 MSA가 압도적으로 중요하다는 것을 밝혔습니다. 또한 self-attention의 head 별로 집중하는 이미지 내 요소(특징)가 다름을 명시적으로 밝히고 있습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-07-29 15:24

    오늘 세미나는 "Interpreting CLIP's Image Representation via Text-Based Decomposition" 논문을 중심으로 진행되었습니다. 해당 논문은 CLIP 모델의 이미지 표현에 각 레이어가 미치는 영향력을 텍스트 설명을 통해 분석하는 내용을 다룹니다. 특히, ViT 구조에서 self-attention과 MLP 레이어의 결합으로 구성된 각 레이어에서 발생하는 연산의 영향력을 확인하고 있습니다. 각 Attention head와 layer의 역할이 다르다는 점을 참신한 case study를 통해 밝혀낼 수 있었는데 XAI 방면으로도 충분히 추가 연구를 고려할 수 있는 방안일 것으로 기대가 됩니다. 좋은 발표 감사합니다.


  • 2024-07-30 08:30

    금일 세미나는 "Interpreting CLIP's Image Representation via Text-Based Decomposition" 논문을 중심으로 진행되었습니다. 발표에서는 CLIP 모델의 이미지 인코더 구조를 심도 있게 분석하며, Multi-Head Self-Attention(MSA)과 MLP(Modular Linear Perceptron) 사이의 기여도를 비교한 점이 인상적이었습니다. 특히 MSA가 MLP보다 훨씬 중요하며, 뒷단의 4개 레이어가 가장 큰 영향을 미친다는 실험 결과가 주목할 만했습니다.

    또한, 'TEXTSPAN'이라는 새로운 접근 방식을 도입해 각 Attention head의 기능을 텍스트 설명으로 분해하고 이해하는 과정이 매우 흥미로웠습니다. 이를 통해 이미지와 텍스트 간의 상호작용을 더 깊이 이해할 수 있게 되었으며, 이미지 인식 및 분류 과정을 개선할 수 있는 가능성을 열어주었습니다. 특히 각 Attention head가 이미지의 다른 요소들, 예를 들어 색상이나 형태 등에 집중하는 것을 명확하게 보여주어, 모델의 내부 작업을 이해하고 최적화하는 데 큰 도움이 될 것으로 보입니다. 흥미로운 주제와 깊이 있는 분석으로 발표해주셔서 감사합니다.


  • 2024-08-01 17:57

    금일 세미나는 'Interpreting CLIP's Image Representation via Text-Based Decomposition'라는 논문을 소개해 주셨습니다. 해당 논문은 CLIP의 Vision Encoder로 쓰이는 각 Multi-Head Self-Attention의 Attention Head별로 집중하고 있는 요소가 다름을 명시적으로 밝혀준 논문입니다. 해당 논문에서는 Attention Head 별 집중하고 있는 요소에 대한 실험을 진행하기 위해, 이전 MLP의 Output이 MSA 연산에 입력되는 영향은 무시하는 Indirect contribution을 기반으로 실험을 진행하고 있으며, 이에 대한 타당성을 입증하고자 특정 Layer의 값을 데이터셋 전체에 걸친 특정 Layer의 값의 평균으로 대체함으로써 영향을 확인하는 Mean-Ablating을 진행해본 결과 MLP의 연산결과가 미치는 영향이 크지 않음으로 입증하고 있습니다. 이후, MSA 내의 Attention-Head가 집중하고 있는 이미지 요소가 다름을 가정하며, 특정 Head의 Output과 후보 Text Representation을 이용하여 일종의 PCA를 수행하는 TEXTSPAN이라는 알고리즘을 제시하며, ChaptGPT-3.5로 후보 Text 집합 생성한 후, 반복적으로 새로운 기저를 찾아가면서 집중하는 요소가 무엇인지 탐색하는 방법을 제안하고 있습니다. 해당 논문을 보면서, CLIP의 Vision Encoder 해석에 대한 통찰력을 준 것 같아 매우 좋은 논문이라고 생각이 들었지만 MLP의 연산결과가 중요하지 않음을 Zero-Shot Classification 성능만으로 보여주는 것은 문제가 있지 않았나 생각이 들었습니다. 비록, 마땅한 방법은 저 또한 바로 생각이 나진 않지만 보다 엄밀하게 MSA의 영향과 MLP의 영향을 분리해서 볼 수 있는 실험은 없었나 생각이 들었던 것 같습니다. 좋은 발표 준비해주셔서 감사합니다!


  • 2024-08-02 15:52

    이번 세미나는 CLIP 아키텍처 내의 데이터 처리 과정을 분석하는 Analysis 및 그를 진행하기 위한 방법론을 고안한 논문 'Interpreting CLIP's Image Representation via Text-Based Decomposition'를 중심으로 진행되었습니다. 특히, CLIP의 Text Encoder와 Vision Encoder 중 후자, 즉 ViT가 이미지를 어떻게 처리하는 지에 대한 분석을 수행하는 것에 초점을 맞춘 연구로, 자세히는 ViT의 모든 Layer에 대한 Attn Block과 FFNN Block의 기여도를 보고자 한 논문으로 요약될 수 있습니다. Transformer는 입력으로 들어온 representation을 최종 목적에 맞는 representation으로 바꾸기 위한 차분을 계산하는 거대한 Residual Block으로 볼 수 있고, 이는 Transformer의 각 layer, 및 그 속의 각 block들에도 동일하게 적용됩니다. 이에 따라, 각 block들은, 그들에게 입력으로 들어온 representation을 변형시킨 출력 representation는 곧 최종적으로 만드는 representation에 대해 기여하는 정도 그 자체를 뜻하게 됩니다. 그렇기에 그 block들의 영향을 없애는, 즉 mean-ablating을 수행하는 것을 거친 뒤에 성능 저하가 얼마나 일어났는지 확인하는 것을 통해 해당 block의 기여도를 측정하고자 하였습니다. 결론적으로는, MLP의 연산 결과는 전체적으로 최종 결과에 큰 기여를 하고 있지 않는 것을 확인할 수 있었으며, 특히 후반 Attn Block의 영향력이 가장 컸었음을 알 수 있었습니다. 실제로, 후반 Attn Block이 어떠한 tensor를 만들었을 때, 유의미한 Cluster가 생기는지 Text 측면에서 정성적으로 분석해본 것은 재미있는 시도였던 것 같습니다. Knowledge Probing 분야의 연구로서 간단하게 각 block의 기여도를 측정하는 방법을 제시한 좋은 논문이라는 생각이 들며, Indirect한 영향을 통합적으로 고려할 수는 없었을지 생각이 들었던 논문이었습니다. 재미있는 논문 소개해주셔서 감사합니다.


  • 2024-08-02 19:54

    이번 세미나는 CLIP 모델의 Image Encoder 내 요소들이 최종 Image Representation을 생성하는데 어떻게 영향을 주는지를 분석한 "Interpreting CLIP's Image Representation via Text-Based Decomposition"이라는 논문에 대한 발표를 중심으로 진행되었습니다. 이를 위해 Image Encoder의 Output을 Multi-Head Self-Attention(MSA)와 MLP의 파트로 나눈 후 Mean-Ablating이라는 기법을 통해 특정 파트의 값을 고정한 후 Representation을 추출하는 실험 과정을 통해서 MSA가 모델 성능에 많은 기여함을 보였습니다. 논문 자체의 구성이 굉장히 독특해서 재밌게 발표를 들을 수 있었고, 특히 MSA의 23번째의 7번 Head가 이미지 내 물체 정보에 집중하며, 22번째 Layer의 11번째 Head는 이미지 내 색상 정보에 집중하는 등 이론으로만 접했던 내용들을 실제 결과를 통해 확인할 수 있는 과정이 매우 흥미로웠습니다. 실험 과정에서 MSA 결과가 다음 MLP 연산에 입력되고, MLP의 연산 결과가 다음 MSA 연산에 입력되는 등의 Indirect Contribution을 무시하는 것이 조금은 치명적인 영향을 줄 수도 있다는 생각이 들긴 했지만 실험을 설계하고 이를 통해 흥미로운 결론을 도출해내는 과정이 매우 인상깊었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2024-07-19 05:57

    금일 세미나는 Interpreting CLIP's Image Representation via Text-Based Decomposition 논문을 바탕으로 진행되었습니다. 해당 연구에서는 대표적인 VL 모델인 CLIP의 Image encoder 내 요소들이 최종 Representation을 생성하는데 얼마나 기여하는가를 밝힌 연구라고 간략하게 말할 수 있습니다. 먼저, Image representation에 있어 MLP와 MSA의 영향을 확인하는 방법으로써 특정 요소의 값을 데이터셋 전체에 걸친 해당 요소의 출력값의 평균으로 대체하여 해당 요소가 최종 성능에 끼치는 영향을 판단하고 있습니다. 이때, MLP의 연산 결과를 mean-ablating한 결과 미미한 수치 하락을 보이며 MLP의 영향이 크지 않음을 판단할 수 있었으며, MSA의 경우 초반 레이어에서는 영향이 미미했으나 후반부 레이어에서는 영향이 매우 큼을 확인할 수 있었습니다. 다음으로는 , MHSA에서 attention head 별의 영향을 확인하기 위하여 TEXTSPAN이라는 알고리즘을 사용합니다. 실험 결과, 모든 Head들이 뚜렷한 역할을 가지고 있는 것이 아님을 확인하였지만, 대부분이 뚜렷한 역할을 가지며 그 역할이 굉장히 세분화 되어 있음을 확인하였습니다. 중간 중간 처음 듣기에 이해가 어려운 부분이 있었지만, 발표자분이 시각적인 자료를 상세하게 작성해주셨으며 잘 설명해주었기에 이해가 수월했습니다. 흥미로운 주제를 다루어주셔서 정말 감사드립니다.


  • 2024-08-03 21:30

    이번 세미나에서는 “Interpreting CLIP's Image Representation via Text-Based Decomposition”에 대해 소개해주셨습니다. 해당 방법론의 포인트는 Multi-head Self-Attention(MSA) 내의 각각의 attention head가 집중하는 이미지 요소를 알아내는 것이었습니다. MSA는 이미지 zero-shot classification의 핵심 방법론인 CLIP에서 patch 단위의 연산을 수행하여 image representation을 도출하는 역할을 하는 것으로, 여러 head의 attention 연산을 병렬적으로 수행하여 모델이 이미지 내의 토큰들 간의 다양한 종속성을 파악할 수 있다는 강점을 가집니다. 소개해주신 논문에서는 이 MSA의 각 attention head들이 뚜렷하게 집중하는 property가 존재한다는 것을 TEXTSPAN이라는 알고리즘을 통해 확인하고 있었습니다. 각 attention head가 동일한 이미지를 보아도 집중하는 부분이 다르며, 이를 다양한 실험을 통해 확인하고 분석하고 있다는 점이 굉장히 흥미롭게 느껴졌던 것 같습니다. 좋은 발표 감사드립니다.


  • 2024-08-03 22:06

    이번 세미나에서는 "Interpreting CLIP's Image Representation via Text-Based Decomposition" 논문을 소개해주셨습니다. 이 논문은 CLIP 아키텍처에서 이미지 표현을 텍스트 기반으로 분해하여 해석하는 방법론을 제안하고 있습니다. 특히, CLIP의 Vision Encoder인 ViT의 각 레이어와 블록들이 이미지 처리에 어떻게 기여하는지 분석하였습니다. 논문은 각 블록의 기여도를 측정하기 위해 mean-ablating 기법을 사용하여, MLP의 연산 결과가 최종 결과에 큰 영향을 미치지 않음을 확인했습니다. 반면, 후반부 Attention 블록의 기여도가 높았음을 발견하였습니다. 또한, 특정 Attention Head가 이미지의 어떤 요소에 집중하는지를 텍스트 기반으로 분석하는 TEXTSPAN 알고리즘을 소개하였습니다. 이 연구는 CLIP의 Vision Encoder 해석에 중요한 통찰을 제공하며, MLP의 영향이 크지 않음을 Zero-Shot Classification 성능만으로 판단한 점은 아쉬웠지만, 전반적으로 유의미한 연구라고 생각합니다. 좋은 발표 감사합니다.


  • 2024-08-03 22:14

    이번 세미나에서 다룬 "Interpreting CLIP's Image Representation via Text-Based Decomposition" 논문 발표 정말 흥미롭게 들었습니다. CLIP 모델의 이미지 인코더 구조 분석과 MSA와 MLP의 기여도를 비교한 실험 결과는 매우 인상적이었습니다. 특히, MSA가 이미지 표현 과정에서 MLP보다 중요하고, 뒷 단의 4개 레이어가 가장 큰 영향을 미친다는 점이 명확히 드러났습니다. TEXTSPAN 알고리즘을 통해 각 Attention head의 기능을 텍스트로 분석한 접근 방식도 참신했습니다. 다만, MLP 기여도 평가에서 Indirect Contribution을 무시한 부분이 아쉬웠습니다. 그럼에도 각 head가 이미지의 다른 특성에 집중하는 것을 확인한 점은 흥미로웠습니다. 좋은 발표 감사합니다.


  • 2024-07-19 13:05

    이번 세미나는 “Interpreting CLIP’s Image Representation via Text-Based Decomposition” 논문을 중심으로 진행되었습니다. 본 연구는 CLIP의 Vision Encoder(ViT)가 이미지 표현을 생성하는 과정에서 각 구성 요소가 얼마나 기여하는지를 분석한 내용으로, 특히 Multi-Head Self-Attention(MHSA)과 MLP의 역할에 초점을 맞췄습니다. 연구에서는 Mean-Ablating 기법을 활용해 특정 레이어의 출력값을 평균으로 대체함으로써 각 요소의 영향을 측정했습니다. 실험 결과, MLP의 기여도는 미미했으나, MHSA의 경우 초반 레이어에서는 영향이 적고 후반 레이어에서는 중요한 역할을 하는 것으로 나타났습니다. 또한, MHSA 내 Attention Head가 서로 다른 이미지 특징에 집중한다는 점을 밝히기 위해 TEXTSPAN 알고리즘을 제안했습니다. TEXTSPAN은 특정 Head의 출력과 텍스트 표현 간의 관계를 PCA 기반으로 분석해 각 Head의 역할을 탐구하는 방법입니다. 이를 통해 대부분의 Head가 구체적이고 세분화된 역할을 가지지만, 일부 Head는 뚜렷한 역할이 없음을 확인했습니다. 해당 논문은 CLIP의 내부 구조에 대한 중요한 통찰을 제공했으며, 발표자의 명확한 설명 덕분에 이해가 용이했습니다. 다만, MLP의 기여도를 판단하는 방식이 Zero-Shot Classification 성능에만 의존한 점은 한계로 보이며, 이를 보완할 실험 설계가 추가되면 더 완성도 높은 연구가 될 것 같다는 생각이 들었습니다. 흥미로운 발표와 논문 소개에 감사드립니다.


전체 526
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11987
관리자 2020.03.12 0 11987
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 10692
관리자 2020.03.12 0 10692
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 11758
관리자 2020.03.12 0 11758
523
[Paper Review] ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced (4)
Jihun Nam | 2025.09.02 | 추천 0 | 조회 72
Jihun Nam 2025.09.02 0 72
522
[Paper Review] Towards Zero-Shot Anomaly Detection and Reasoningwith Multimodal Large Language Models (2)
Junyeong Son | 2025.08.28 | 추천 0 | 조회 105
Junyeong Son 2025.08.28 0 105
521
[Paper Review] spurious Forgetting in Continual Learning of Language Models (6)
Hun Im | 2025.08.22 | 추천 0 | 조회 110
Hun Im 2025.08.22 0 110
520
[Paper Review] Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning (6)
Jinwoo Park | 2025.08.22 | 추천 0 | 조회 109
Jinwoo Park 2025.08.22 0 109
519
[Paper Review] From Local to Global: A GraphRAG Approach to Query-Focused Summarization (7)
Doyoon Kim | 2025.08.15 | 추천 0 | 조회 181
Doyoon Kim 2025.08.15 0 181
518
[Paper Review] AutoUAD: Hyper-parameter Optimization for Unsupervised Anomaly Detection (4)
Woojun Lee | 2025.08.12 | 추천 0 | 조회 144
Woojun Lee 2025.08.12 0 144
517
[Paper Review] Prototype-oriented unsupervised anomaly detection for multivariate time series (9)
Suyeon Shin | 2025.08.08 | 추천 0 | 조회 176
Suyeon Shin 2025.08.08 0 176
516
[Paper Review] HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting (10)
Sunghun Lim | 2025.08.04 | 추천 0 | 조회 200
Sunghun Lim 2025.08.04 0 200
515
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (8)
Hyeongwon Kang | 2025.07.29 | 추천 0 | 조회 300
Hyeongwon Kang 2025.07.29 0 300
514
[Paper Review] Recent Research Trends in Video Anomaly Detection (11)
Jaehyuk Heo | 2025.07.27 | 추천 0 | 조회 305
Jaehyuk Heo 2025.07.27 0 305

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호