[Paper Review] VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

Paper Review
작성자
Junyeong Son
작성일
2024-11-21 14:45
조회
1018
1. 논문 제목
    • 제목 : VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation(ECCV 2024)
    • 링크 : https://arxiv.org/abs/2407.12276
2. Overview
    • 기존 CLIP의 Text Prompt에 Visual Context를 주입하는 Visual Context Prompting을 통해 Zero-Shot Anomaly Segmentation(ZSAS)를 수행하는 방법론
    • 정상 / 비정상 프롬프트를 구성하는 Unified Text Prompting(UTP)와 CLIP Text Encoder의 Prompt Learning을 수행하는 Deep Text Prompting(DTP)를 결합한 Baseline을 제안
    • Baseline에 Visual Context를 주입하기 위해 Text Prompt에 Global Image Feature를 주입하는 Pre-VCP 모듈과 Text Feature를 Fine-Grained Image Feature를 결합해 업데이트하여 Anomaly Map을 생성하는 Post-VCP 모듈을 구성
    • 10개의 Real-World Industrial Anomaly Segmentation 데이터셋에 대한 ZSAS에서 SOTA 성능을 달성
3. 발표자료 및 발표영상
    • 발표 자료 : 하단 첨부
    • 발표 영상()
전체 15

  • 2024-12-04 14:25

    이번 세미나에서는 "VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 연구는 CLIP의 Text Prompt Feature에 Visual Context를 주입하여 Zero-Shot Anomaly Segmentation (ZSAS)을 수행하는 새로운 방법론을 제시합니다. 특히, 이 방법론은 기존의 CLIP 기반 접근 방식에서 발견되는 한계를 극복하고자 합니다. Unified Text Prompting (UTP)과 Deep Text Prompting (DTP)의 조합을 통해 기본적인 텍스트 프롬프팅 구조를 구축하여 정상 및 비정상 상황을 설명할 수 있는 통합된 텍스트 프롬프트를 생성합니다. 이를 통해 CLIP Text Encoder를 통한 Prompt Learning을 가능하게 합니다. 추가로, Pre-VCP 모듈을 통해 글로벌 이미지 특성을 텍스트 프롬프트에 주입하고, Post-VCP 모듈을 통해 텍스트 특성과 세밀한 이미지 특성을 결합하여 업데이트합니다. 이 두 모듈의 통합은 텍스트와 이미지 간의 크로스-모달 상호작용을 강화하며, 결과적으로 이상 지도를 보다 정확하게 생성할 수 있습니다. Zero-Shot Anomaly Detection 및 Segmentation에서 주로 활용되는 Prompt Learning에 대한 개념을 이해할 수 있는 시간이었고, Text Prompt에 Global Visual 정보를 주입한다는 아이디어가 신선했던 논문이었습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-12-06 16:39

    이번 세미나는 “VCP-CLIP: A Visual Context Prompting Model for Zero-Shot Anomaly Segmentation” 논문을 중심으로 진행되었습니다. 해당 연구는 CLIP 기반 모델에 Pre-VCP와 Post-VCP 모듈을 추가하여 글로벌 및 세밀한 시각 정보를 텍스트 프롬프트와 결합하는 새로운 방법론을 제안합니다. Unified Text Prompting(UTP)과 Deep Text Prompting(DTP)을 활용하여 이상 탐지에 적합한 텍스트 프롬프트를 생성하며, 텍스트와 이미지 간의 크로스 모달 상호작용을 강화해 이상 지도 생성 정확도를 크게 높였습니다. 특히, Prompt Engineering 없이 Learnable Vector를 통해 자동으로 프롬프트를 생성하는 접근법은 효율성과 일반화 성능에서 뛰어났습니다. 실험 결과 10개의 실제 산업 데이터셋에서 최고 성능을 달성해 연구의 실용성을 입증했습니다. 텍스트 프롬프트와 시각 정보를 통합하려는 시도가 매우 신선했고, ZSAS 분야의 새로운 가능성을 보여준 흥미로운 발표였습니다. 좋은 발표 감사합니다.


  • 2024-11-22 14:29

    이번 세미나에서는 CLIP의 Text Prompt에 시각적 컨텍스트를 주입하는 방법을 통해 Zero-shot Anomaly Segmentation을 수행하는 “VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation” 논문에 대해 발표해 주셨습니다. 해당 연구에서는 Unified Text Prompting(UTP)과 Deep Text Prompting(DTP)을 결합한 베이스라인을 구축하고, 여기에 글로벌 이미지 특성을 추가하는 Pre-VCP 모듈과 텍스트 특성을 세밀한 이미지 특성과 결합하여 업데이트하는 Post-VCP 모듈을 통해 시각적 컨텍스트를 더욱 효과적으로 통합했습니다. 이러한 Pre-VCP와 Post-VCP 모듈을 통해 텍스트와 이미지 Feature 사이의 Cross-modal Interaction을 향상시켜, 복잡한 이상 탐지 태스크에서의 정확도를 높였다는 점이 흥미로웠습니다. 또한, 기존까지 Text Prompt를 다루는 방법론에서는 “a photo of” 또는 [state] 등의 텍스트 정보를 바꾸는 실험 방식이 주를 이루었는데 해당 논문에서는 Class가 가지는 Semantic 한 정보를 학습하기 위해 Class 정보를 C차원의 Learnable Vector로 활용하였다는 점이 가장 인상깊었습니다. 이는 간단한 아이디어일 수 있지만, 매우 많은 실험을 통해 방법론의 유용성을 입증하였다는 점에서 의의를 갖고 있다고 생각합니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2024-11-24 14:16

    금일 세미나는 zero shot anomaly segmentation을 위한 contextual representation 생성 방법론을 제안한 “VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation”을 중심으로 진행되었습니다. CLIP 이후 contextual representation의 중요성은 기존 CoOP과 CoCoOP을 통해 충분히 강조되고 있는 상황입니다. 하지만 본 연구는 더 나아가 이상치 탐지 상황에서는 이상치 종류에 대한 정보를 획득할 수 없으므로 class 정보없이 이미지로부터 contextual 정보를 획득하여 text prompt에 삽입하는 구조를 제안하고 있습니다. 인상적이었던 점은 제안 방법론뿐 아니라 단순 contextual 정보를 삽입하는 baseline도 CoCoOP이나 WinCLIP 대비 높은 성능을 달성한다는 점이었습니다. 결국 이상치 탐지 분야에서 기존 CLIP 상황과 달리 정보를 주입하는 방식이 매우 중요한 상황이었던 것으로 보입니다. 좋은 발표 감사드립니다.


  • 2024-11-22 05:57

    이번 세미나에서는 “VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation” 논문이 소개되었습니다. 이 연구는 CLIP 기반 모델의 Text Prompt에 Visual Context를 주입하여 Zero-Shot Anomaly Segmentation(ZSAS)을 수행하는 새로운 방법론을 제안합니다. Unified Text Prompting(UTP)과 Deep Text Prompting(DTP)을 결합해 정상 및 비정상 상황을 통합적으로 설명할 수 있는 텍스트 프롬프트 구조를 구축하고, CLIP의 Text Encoder를 통해 효과적인 Prompt Learning을 수행합니다. 핵심적으로, Pre-VCP 모듈은 글로벌 이미지 특성을 텍스트 프롬프트에 통합하여 텍스트와 시각적 정보 간의 상호작용을 강화하고, Post-VCP 모듈은 텍스트 특성과 세밀한 이미지 특성을 결합해 이상 지도를 생성합니다. 이를 통해 Cross-modal Interaction이 강화되어 기존 방법론 대비 더욱 정교한 이상 탐지가 가능해졌습니다. 특히, 학습 가능한 벡터를 통해 Prompt Engineering 과정을 자동화함으로써 성능 개선과 효율성을 동시에 달성한 점이 인상적이었습니다. 실험 결과는 ZSAS에서의 정확도 향상을 명확히 보여주었으며, Text Prompt와 Visual Context의 융합이라는 신선한 접근법이 앞으로의 연구에 중요한 기여를 할 것으로 기대됩니다. 좋은 발표 준비에 감사드립니다!


  • 2024-11-26 09:38

    이번 세미나에서는 "VCP-CLIP: A Visual Context Prompting Model for Zero-Shot Anomaly Segmentation" 논문에 대해 발표가 진행되었습니다. 이 연구는 대규모 비전-언어 모델인 CLIP을 활용하여, 제품별 텍스트 프롬프트 없이도 새로운 제품의 이상 영역을 효과적으로 분할하는 방법을 제안합니다. 기존의 방법들은 검사 대상 제품의 종류를 알고 있어야 하며, 제품별로 텍스트 프롬프트를 설정해야 하는 한계가 있었습니다. 그러나 VCP-CLIP은 이러한 제약을 극복하기 위해 두 가지 주요 모듈을 도입합니다. 첫째, Pre-VCP 모듈은 전역적인 시각 정보를 텍스트 프롬프트에 내재화하여, 제품별 프롬프트의 필요성을 없앱니다. 둘째, Post-VCP 모듈은 이미지의 세밀한 특징을 활용하여 텍스트 임베딩을 조정함으로써, 다양한 제품에 대한 일반화 능력을 향상시킵니다. 실험 결과, 10개의 실제 산업 이상 segmentation 데이터셋에서 최고 성능을 달성하였습니다. 이는 제품별 프롬프트 없이도 새로운 제품의 이상 영역을 정확하게 분할할 수 있음을 보여줍니다. 흥미로운 주제로 좋은 발표 준비해주셔서 감사합니다.


  • 2024-11-26 12:58

    본 세미나는 Zero-shot 상황을 가정한 Anomaly Segmentation task를 다루고 있는 논문을 중심으로 진행되었습니다. 해당 연구는 기존 CLIP 구조의 Text Prompt에 Visual Context를 주입하고 있는 큰 구조를 띄고 있고, 정상/비정상 프롬프트를 구성하는 Unified Text Prompt과 CLIP Text Encoder의 Prompt Learning을 수행하는 Deep Text Prompting을 결합한 Baseline을 제안하였습니다. 여기서 가장 인상깊었던 점은, Text Prompt를 Global/Fine-Grained하게 나눠 주입하는 모듈을 각각 구성했다는 점이고 VLM이 포커스 하고 있는 부분이 다르기 때문에 기인하게 된 결과라고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-11-26 17:18

    금일 세미나는 "VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation" 연구를 바탕으로 진행되었습니다. 제안 연구는 사전학습된 CLIP을 바탕으로 Text Prompt에 Visual Context를 주입하는 Visual Context Prompting을 사용하여 Zero-shot Anomaly Segmentation을 수행하고자 하는 연구입니다. 이러한 Prompt 기반 이상 탐지 모델들에서는 어떻게 Handcrafted Text Prompt를 구성하는지가 매우 중요한데, 이는 PromptEngineering과정에서 매우 많은 시간과 비용이 발생하여 비효율적이며, 단어의 조그만 차이로도 성능에 큰 차이를 야기할 수 있기 때문입니다. 이에 후속 연구에서는 Learnable vector를 바탕으로 Prompt engineering을 자동으로 수행하는 연구가 등장하기도 하였습니다. 제안 연구에서는 정상 / 비정상 프롬프트를 구성하는 Unified Text Prompting(UTP)에 추가적인 Learnable parameter를 사용하고, CLIP Text Encoder의 Prompt Learning을 수행하는 Deep Text Prompting(DTP)를 추가해주고 있습니다. 또한 Text Prompt에 Global Visual Information을 주입하는 Pre-VCP 모듈과 Text Feature와 Patch-Level Feature를 통해 Anomaly Map을 생성하는 Post-VCP 모듈을 통하여 Zero-shot Anomaly Segmentation을 진행하고 있습니다. 상세하게 설명해주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2024-11-27 00:21

    이번 세미나에서는 "VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation"에 대해 소개해주셨습니다. 논문에서는 Zero-shot Anomaly Segmentation을 위해 설계된 새로운 모델인 VCP-CLIP을 소개하며, 이미지 내의 비정상 영역을 학습 없이 정확하게 탐지하는 혁신적인 접근을 제안합니다. VCP-CLIP은 멀티모달 모델인 CLIP의 text-image 연관 학습 능력을 활용하여, 사전 학습된 지식과 Vision Context를 프롬프트로 결합함으로써 비정상 패턴을 효율적으로 탐지합니다. 특히 기존의 anomaly segmentation 모델들이 비정상 데이터를 사전에 학습하거나 복잡한 특징 추출 과정을 요구한다는 한계를 해결하였으며, 높은 일반화 성능을 갖습니다. 발표를 통해 zero-shot anomaly segmentation 분야에 대해 새롭게 접할 수 있었던 것 같습니다. 세심한 장표 준비와 차분한 발표가 이해에 큰 도움이 되었습니다. 좋은 발표 감사드립니다.


  • 2024-11-27 16:09

    이번 세미나에서는 "VCP-CLIP: A Visual Context Prompting Model for Zero-Shot Anomaly Segmentation" 논문이 소개되었습니다. 이 연구는 Zero-Shot Anomaly Segmentation(ZSAS)을 위해 CLIP 기반 모델에 Visual Context를 주입하는 새로운 Prompting 방법론을 제안합니다. VCP-CLIP은 Pre-VCP와 Post-VCP 모듈을 통해 Text Prompt에 Global 및 Local Visual 정보를 통합하여 더 정밀한 이상 탐지를 가능하게 합니다. 이를 통해 기존의 Prompting 방식에서 발생하던 Visual 정보 부족 문제를 해결하고, Cross-Modal Interaction을 강화했습니다. 실험 결과, VCP-CLIP은 10개의 산업 이상 탐지 데이터셋에서 SOTA 성능을 달성하며, 특히 Segmentation 정확도를 대폭 향상시켰습니다. 다만, 작은 이상 영역에서 Over-Detection 문제가 관찰되었고, 특정 클래스의 이상 탐지에서 정상 이미지에 의존해야 하는 한계가 있었습니다. 발표를 통해 ZSAS에서 Prompt 기반 접근법의 가능성을 확인할 수 있는 유익한 시간이었습니다. 감사합니다!


  • 2024-11-28 16:40

    금일 세미나에서는 “VCP-CLIP: A Visual Context Prompting Model for Zero-Shot Anomaly Segmentation” 논문에 대해 다뤄주셨습니다. 해당 연구는 기존 CLIP 기반 이상 탐지 방법론에서 발생하는 텍스트 프롬프트의 한계를 극복하고자 Pre-VCP와 Post-VCP 모듈을 통해 텍스트와 이미지 간의 Cross-Modal Interaction을 강화하는 새로운 접근법을 제안했습니다. Pre-VCP 모듈은 글로벌 시각 정보를 텍스트 프롬프트에 통합하여 이상 탐지의 일반화 성능을 향상시키고, Post-VCP 모듈은 텍스트 임베딩과 세밀한 이미지 특성을 결합하여 더 정교한 Anomaly Map 생성을 가능하게 했다는 점이 특히 인상적이었습니다. 이러한 Visual Context Prompting 방식은 Zero-shot 상황에서도 제품별 프롬프트 없이 이상 탐지가 가능하다는 점에서 매우 실용적이며, 실험 결과 또한 다양한 산업 데이터셋에서 우수한 성능을 입증하여 연구의 의의를 높였다고 생각합니다. 복잡한 개념도 발표자분께서 이해하기 쉽게 설명해 주셔서 많은 인사이트를 얻을 수 있었습니다. 좋은 발표 감사드립니다!


  • 2024-11-29 08:11

    본 세미나는 VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation 이라는 논문 주제로 진행되었습니다. Zero-shot anomaly segmentation을 수행하기 위해 기존 clip의 text prompt에다가 visual context를 주입하는 visual context prompting을 사용하는 VCP-CLIP을 제안하고 있습니다. 정상/비정상 text prompt를 생성하기 위한 unified text prompting(UTP)와 visual smantic과 text간의 align을 위한 depp text prompting(DTP)을 결합한 baseline을 통해 anomaly map을 구성합니다. 이 때 global 정보 부족, 불충분한 interaction성능등을 개선하기 위해 두가지 visual context prompting 모듈인 Pre-VCP와 Post-VCP를 도입합니다. 이로써 Global과 Local image feature를 textual space에 담을 수 있게 하였습니다. 또한 실험에서 10개의 real-world insustrial anomaly segmentaion 데이터셋에서 zero-shot AD 성능이 SOTA를 달성하기도 하였습니다. 관련 연구부터 실험 결과까지 잘 설명해주셔서 좋았습니다. 수고하셨습니다.


  • 2024-11-29 16:30

    이번 세미나에서는 "VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation" 논문을 소개해주셨습니다. 본 연구는 이상치 탐지 분야에서 기존 CLIP의 한계를 극복하기 위한 새로운 접근법을 제시합니다. 특히 주목할 만한 점은 제품별 텍스트 프롬프트 없이도 이미지로부터 직접 contextual 정보를 추출하여 이상 영역을 효과적으로 분할하는 방법을 제안했다는 것입니다. Pre-VCP와 Post-VCP 두 가지 핵심 모듈을 통해 전역적 시각 정보를 텍스트 프롬프트에 내재화하고 이미지의 세밀한 특징을 활용하여 텍스트 임베딩을 조정합니다. 실험 결과에서 특히 인상적인 부분은 제안된 방법론뿐만 아니라 기본적인 contextual 정보 주입 방식조차도 CoCoOP이나 WinCLIP보다 우수한 성능을 보여주었다는 점입니다. 이는 이상치 탐지 분야에서 정보 주입 방식의 중요성을 잘 보여주며, 10개의 실제 산업 이상 segmentation 데이터셋에서 최고 성능을 달성함으로써 그 효과성이 입증되었습니다. 좋은 발표 감사합니다.


  • 2024-12-01 14:07

    이번 세미나에서는 "VCP-CLIP: A Visual Context Prompting Model for Zero-Shot Anomaly Segmentation" 논문에 대한 발표가 진행되었습니다. 본 연구는 CLIP 모델의 Text Prompt에 시각적 컨텍스트를 주입하는 새로운 방식을 제안하며, Zero-shot 상황에서도 뛰어난 이상 탐지 성능을 보여주었습니다. 특히 Pre-VCP 모듈을 통해 글로벌 이미지 특성을 텍스트 프롬프트에 통합하고, Post-VCP 모듈로 세밀한 이미지 특성을 텍스트 임베딩과 결합하여, 텍스트와 이미지 간의 Cross-Modal Interaction을 강화한 점이 인상적이었습니다. 또한, Learnable Vector를 통해 Class 정보를 효율적으로 표현한 점은 기존 Prompt Engineering의 한계를 극복한 혁신적인 시도로 보입니다. 실험 결과가 10개의 실제 산업 데이터셋에서 SOTA 성능을 달성한 것도 연구의 실용성을 뒷받침해 주었습니다. 발표를 통해 Zero-shot Anomaly Segmentation 분야에서 새로운 접근법을 배울 수 있는 유익한 시간이었습니다. 좋은 발표 준비해 주셔서 감사합니다!


  • 2025-01-30 15:55

    이번 세미나는 이미지 이상치 탐지 중 zero-shot anomaly segmentation을 주제로 진행되었습니다. 소개해주신 연구는 CLIP을 이용해 text prompting 을 활용하는 방안을 제안하였습니다. Visual Context Prompting 이라는 전략을 통해 이미지의 global feature를 text prompt에 입력하고 text feature와 patch-level feature간의 alignment를 진행합니다. 한편, Zero-shot Anomaly Segmentation 과업은 라벨이 존재하는 특정 데이터셋으로 학습하고 다른 데이터셋 대상으로 평가를 진행하기에, 사실상 Out-of-Domain 상황의 모델 수행 능력을 평가하는 것이 아닌가 싶습니다. 흥미로운 주제의 발표 감사합니다.


전체 526
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11977
관리자 2020.03.12 0 11977
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 10680
관리자 2020.03.12 0 10680
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 11747
관리자 2020.03.12 0 11747
523
[Paper Review] ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced (3)
Jihun Nam | 2025.09.02 | 추천 0 | 조회 63
Jihun Nam 2025.09.02 0 63
522
[Paper Review] Towards Zero-Shot Anomaly Detection and Reasoningwith Multimodal Large Language Models (2)
Junyeong Son | 2025.08.28 | 추천 0 | 조회 101
Junyeong Son 2025.08.28 0 101
521
[Paper Review] spurious Forgetting in Continual Learning of Language Models (6)
Hun Im | 2025.08.22 | 추천 0 | 조회 108
Hun Im 2025.08.22 0 108
520
[Paper Review] Time-Series Forecasting for Out-of-Distribution Generalization Using Invariant Learning (5)
Jinwoo Park | 2025.08.22 | 추천 0 | 조회 106
Jinwoo Park 2025.08.22 0 106
519
[Paper Review] From Local to Global: A GraphRAG Approach to Query-Focused Summarization (7)
Doyoon Kim | 2025.08.15 | 추천 0 | 조회 179
Doyoon Kim 2025.08.15 0 179
518
[Paper Review] AutoUAD: Hyper-parameter Optimization for Unsupervised Anomaly Detection (4)
Woojun Lee | 2025.08.12 | 추천 0 | 조회 141
Woojun Lee 2025.08.12 0 141
517
[Paper Review] Prototype-oriented unsupervised anomaly detection for multivariate time series (9)
Suyeon Shin | 2025.08.08 | 추천 0 | 조회 171
Suyeon Shin 2025.08.08 0 171
516
[Paper Review] HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting (10)
Sunghun Lim | 2025.08.04 | 추천 0 | 조회 197
Sunghun Lim 2025.08.04 0 197
515
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (8)
Hyeongwon Kang | 2025.07.29 | 추천 0 | 조회 298
Hyeongwon Kang 2025.07.29 0 298
514
[Paper Review] Recent Research Trends in Video Anomaly Detection (11)
Jaehyuk Heo | 2025.07.27 | 추천 0 | 조회 301
Jaehyuk Heo 2025.07.27 0 301

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호