[Paper Review] AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization

작성자
Sunwoo Kim
작성일
2023-10-21 00:46
조회
1932
  1. 논문
    • 제목 : "AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization"
    • 링크 : 바로가기
  2. overview
    • 사전학습된 CLIP 모델을 이용하여 zero-shot anomaly detection과 localization을 수행하는 AnoVL 제안
    • CLIP에서 intrinsic local token을 추출하기 위해 Training-free Adaptation (TFA) 도입
      • local-aware patch token을 구하기 위한 V-V attention
      • visual language alignment 향상을 위해 domain-aware state prompt template 이용
    • anomaly localization 성능 향상을 위해 Test-time Adaptation (TTA) 도입
    • zero-shot 세팅 : multi-class anomaly detection과 localization에서 대부분의 기존 모델 성능을 뛰어넘음
  3. 발표자료
    • 발표자료: 하단 첨부
  4. 발표영상
전체 20

  • 2023-11-03 13:03

    이번 세미나에서는 지난 9월 나온 논문인 Vision-Language 모델을 이용해 Anomaly Detection Task를 수행하는 AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization 논문을 주제로 발표를 진행했습니다. 발표 내용 중 특히 AnoVL 모델이 어떻게 zero-shot setting에서 fine-grained task를 처리하는지에 대한 부분이 인상적이었습니다. V-V attention과 Training-Free Adaptation, Test-Time Adaptation 같은 새로운 접근법들이 모델의 성능을 어떻게 향상시키는지에 대한 설명을 자세히 해주어 이해 하기 쉬웠습니다. 발표자님께서는 복잡한 내용을 쉽고 명쾌하게 전달해 주셔서 이해하는데 많은 도움이 되었습니다. 하지만, 여전히 실제 상황에서의 다양한 anomaly 유형을 어떻게 효과적으로 잡아낼 수 있을지에 대한 의문이 남았고, 이러한 zero-shot setting이 실제로 얼마나 효과적일지에 대한 부분도 좀 더 깊이 있게 다뤄졌으면 하는 아쉬움이 있습니다. AnoVL이 수행하는 zero-shot AD에 대해서 조금 아쉬움이 남았던 부분이지만 많은 인사이트를 가져갈 수 있었던 좋은 시간이었습니다. 좋은 발표 감사합니다


  • 2023-11-04 16:14

    금일 세미나는 AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization 논문을 바탕으로 진행되었습니다. 해당 논문에서는 Image Anomaly detection을 위한 Framework인 AnoVL을 이용하고 있으며, 이때 Zero-shot detection과 Anomaly point의 Localization을 위하여 CLIP 기반 모델을 이용하고 있습니다. 이때, CLIP에서 Intrinsic local token을 추출하기 위하여 Training-free Adaptation (TFA)과, Anomaly Localization 성능 향상을 위한 Test-time Adaptation(TTA)라는 추가적인 Adapter를 이용하고 있습니다. 먼저 TFA는 Pre-trained CLIP으로부터 Local representation을 얻기 위하여 Domain-aware state prompt Template과, Local-aware token 계산을 위한 V-V Attention을 제시하고 있습니다. Prompt에 예민한 VL model들의 성능 향상을 위하여 이미지의 Domain, State, Class로 구성된 Text로 부 Unified domain-aware contrastive state prompt template을 구성하여, domain-aware state token을 만들어 내고 있습니다. 이후, 이와 Image patch-token 간의 V-V Attention을 통하여 Local-aware token을 계산함으로써 보다 풍부한 Patch token의 Locality를 반영하고 있습니다. 마지막으로 TTA는 Inference 시 Anomaly detection 성능 향상을 위하여 사용하고 있습니다. 다양한 예시와 시각 자료를 포함해 주신 덕분에 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2023-11-04 16:20

    이번 세미나는 "AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization" 논문에 대하여 소개해주셨습니다. 최근 WinCLIP과 더불어 anomaly detection task에 language 모델을 함께 사용하려는 시도가 생기고 있는데 그에 대한 또하나의 연구 사례입니다. AnoVL은 Training-free Adaptation(TFA)와 Test-time Adaptation(TTA)를 제안하여 text 기반 이상치 탐지를 수행합니다. TFA에서 인상깊었던 점은 V-V attention 이었습니다. V-V attention에 대해서는 이번에 알게 되었는데, 관련해서 CLIP surgery에 대한 연구를 살표볼 수 있는 시간이었습니다. 또한 TTA의 경우 inference 과정에서 모델의 성능향상을 위한 방법으로 기존 Test-time Augmentation과 동일한 단어로 사용되어 혼동이 있었지만 같은 목적 하에 사용되는 방법이었습니다. WinCLIP이나 text-based diffusion 방식과 같이 AnoVL에서도 이미지에 대한 description을 template으로 여러개 구성하여 사용하는데 이와 관련하여 description 쪽으로 더 나은 성능을 만들 수 있지 않을까 라는 생각을 해보았습니다. 좋은 발표 감사합니다.


  • 2023-11-04 18:09

    이번 세미나에서는 Test-time Adapatation(TTA)과 Training-free Adaptation(TFA)를 CLIP에 적용한 모델인 "AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization” 논문에 대해 발표해 주셨습니다. 이는 기존에 CLIP 모델과 WinCLIP 모델을 발전시킨 모델로 Anomaly Localization과 같은 Fine-grained Task를 위한 디테일을 제공하지 못하는 문제와 제한된 Local Descriptor로 구성되었다는 문제를 해결하였습니다. 대표적으로 해당 모델은 이상치 탐지에 사용하기 위한 충분하고 효과적인 Prompt를 생성하기 위해 Domain-aware State Prompt Template를 제안하였습니다. 해당 과정에서 [domain], [state], [class]와 같은 3개의 카테고리를 사용해 ‘An [Industrial] photo of a [normal] [bottle]’과 같이 템플릿을 채워 넣는 식으로 Training-free Adaptation(TFA)을 학습하는 것이 매우 인상깊었습니다. 또한 일부 파라미터만을 최적화하여 Inference 시 Pre-trained 모델을 Downstream Task로 도입하는 Test-time Adapatation(TTA) 기법을 적용하였습니다. 기존의 TTA는 Anomaly Localization에 많은 시간을 소요하였는데, Non-linear Residual like adapter를 고안해 시간 효율적이고 추가적인 데이터나 Annotation을 필요로 하지 않게 된 점이 흥미로웠습니다. 이상치 탐지에 있어서 현재 많은 연구가 이뤄지고 있는 Vision-Language 대표 모델인 CLIP을 활용했다는 점이 매우 인상깊었고, 해당 분야에서 발전 가능성이 많아 보여 이번 발표를 계기로 추후 공부해 보고자 다짐하게 되었습니다. 좋은 발표 감사드립니다.


  • 2023-11-04 21:29

    이번 세미나는 AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization를 주제로 진행되었습니다. 기존에 이미지 임베딩과 텍스트 임베딩을 활용하여 이상탐지를 수행하던 CLIP이 알지 못하는 object에 대해서도 탐지 성능을 보였지만, anomaly localization을 잘 수행하지 못했다는 점과 제한된 local descriptor로 구성되어 있었다는 한계점이 있었습니다. 본 논문에서 제안하고 있는 AnoVL은 intrinsic local token을 추출하기 위해 Training-free Adaptation(TFA)와 anomaly localization 성능 향상을 위해 Test-time Adaptation(TTA)를 제안하여 text 기반 이상치 탐지를 수행합니다. TFA는 정교한 prompt를 위한 Domain-aware state prompting, value 끼리의 attention을 구하는 V-V attention으로 구성되어 있으며, TTA는 일부 파라미터만을 최적화하여 inference시 pre-train된 모델을 downstream task로 도입하는 방법입니다. 이미지 이상탐지에 text를 사용하는 이전 연구들도 참신하다고 생각하였는데 해당 연구들이 더 나은 방향으로 개선되고 있는 점이 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2023-11-04 21:50

    이번 세미나에서는 “AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization”이라는 연구에 대해서 소개해주셨습니다. 해당 논문은 Zero-shot Anomaly Detection과 Localization을 위해 CLIP에, TFA 모듈과 TTA 모듈을 함께 활용한 프레임워크인 AnoVL을 제안했습니다. 제안한 방법론에서는 Patch Token의 Locality를 향상시키기 위해 Value-to-Value Attention 구조를 활용했는데, 이전까지 보지 못했던 Attention 활용이라 참신했습니다. 다만, 일반적인 Query-Key Self-Attention과 Value-to-Value Attention의 결과를 시각화한 결과에서 Query-Key Self Attention은 확실히 Localization이 부족하다고 느껴졌습니다만 Value-to-Value Attention은 지나치게 Segment에서도 일부에만 높은 Attention을 가하는 것이 아닌가라는 의구심이 들었습니다. Prompt Template을 이용해 Anomaly Detection을 수행한다는 점이 참신해 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-11-04 23:11

    이번 세미나에서는 VLM을 이용해서 zero=shot anomaly-detection을 수행하는 AnoVL에 대하여 발표를 해주셨습니다. 이 논문은 잘 학습된 CLIP의 text representation을 활용하여 기존에 본적이 없는 anomaly에 대해서도 탐지가 가능하다는 점을 contribution으로 내세우는 논문으로써 우리 연구실의 cv연구 인원들이 관심이 많은 논문이었습니다. 이 논문에서 가장 핵심으로 삼는 내용은 value-value attention으로 기존의 attention 매커니즘이 global average pooling처럼 작용하기 때문에 local 정보를 충분히 반영하지 못한다는 점을 개선한 방법이었습니다. v-v attention을 적용하여 local 정보를 충분히 leverage하여 anomaly detection을 수행하는데에 있어서 많은 이점을 가진채로 다양한 prompt template를 이용해 zero-shot ad를 수행할 수 있었고 TTA(Test Time Adaptation0을 통하여 더 정확하고 엄밀한 ad가 가능하다는 것을 보여준 좋은 논문이었습니다. 이 논문을 토대로 개인연구를 하는 입장으로써 많은 도움을 받은 논문이었습니다. 좋은 발표 감사합니다.


  • 2023-11-04 23:18

    이번 세미나에서는 “AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization”라는 논문을 주제로 진행되었습니다. 해당 연구는 pre-trained CLIP과 Training-Free Adaptation module(TFA), Test-Time Adaptation(TTA)으로 구성되어 있습니다. 기존 CLIP은 local patch token과 텍스트 임베딩 간의 alignment가 부족하다는 점과 시간 비용 문제가 있어 intrinsic local token을 추출하기 위한 TFA를 도입하고 TTA를 통해 anomaly localization 향상을 이룹니다. 또한 domain-aware state prompting을 통해서 downstream task간의 domain gap을 줄일 수 있었습니다. 이후 value-to-value attention을 통해서 같은 semantic을 갖는 nearby token을 연결할 수 있고 attention focus 향상을 보장할 수 있었습니다. CLIP을 활용한 anomaly detection task에 대한 연구에 대해 이번 세미나를 통해 배울 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-11-04 23:59

    이번 세미나는 AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization 논문으로 진행되었습니다. AnoVL은 사전학습된 CLIP 모델을 기반으로 여러 방법을 제안했는데 그 중에서도 fine-grained visual recognition task를 위해 제안한 domain-aware prompt template이 가장 인상 깊었습니다. 단순한 prompt가 아닌 template의 구성 요소인 domain, state, class를 3가지 유형으로 정교하게 구성하여 visual-language alignment 능력을 향상시킨 걸 보면 도메인과 관계없이 Prompt는 중요한 역할을 하는 것 같습니다. 지금까지 진행된 anomaly detection 관련 세미나에서 prompt template을 활용한 세미나는 처음 접해서 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-11-05 11:56

    이번 세미나에서는 "AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization"에 대해 소개해주셨습니다. AnoVL은 CLIP을 기반으로 vision-language model을 활용하여 zero-shot anomaly detection과 localization을 수행하는 것을 핵심으로 갖고 있는 방법론입니다. 해당 방법론은 Training-free Adaptation(TFA)와 Test-time Adaptation(TTA)로 구성되어 있습니다. TFA는 domain-aware state prompt template과 value-to-value attention을 통해 모델을 개선, 그리고 TTA에서는 모델을 정확히 조정하는 것으로 anomaly detection 성능을 개선하는 역할을 합니다. 비전 분야 발표자들을 통해 anomaly detection에서 CLIP 방법론의 중요성을 알아갈 수 있는 것 같습니다. 마지막 세미나까지 정말 수고 많으셨습니다.


  • 2023-11-05 18:38

    본 세미나에서는 AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization 이라는 주제의 논문에 대한 리뷰를 진행하였습니다. 본 논문은 Vision-Language model을 이용해 anomaly detection을 수행하는 AnoVL이라는 모델을 제안하였습니다. 사전학습된 CLIP 모델을 이용하여, zero-shot으로 AD와 localization을 수행하는 구조입니다. 특이점으로는 CLIP에서 intrinsic local token을 추출하기 위해 Training-free Adaptation (TFA) 도입했다는 부분ㅇ비니다. local-aware patch token을 구하기 위해 V-V attention을, 이미지와 language의 alignment 향상을 위해 domain-aware state prompt template을 활용하였습니다. 이러한 구조들을 통해 zero-shot setting에서 multi-class ad와 localization에서 대부분의 기존 모델의 성능을 뛰어넘는 성과를 기록하였습니다. Multi-modal 특히 vision-language model에 대한 연구가 최근 주목 받고 있는데, 이러한 흐름에 잘 맞춘 anomaly detection 연구라는 생각이 들었습니다. 좋은 발표 감사합니다!


  • 2023-11-06 01:35

    이번 세미나에서는 "AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization" 논문을 소개해 주셨습니다. AnoVL 모델이 zero-shot 설정에서 fine-grained task를 어떻게 처리하는지 자세히 설명되었으며, 특히 V-V attention과 Training-Free Adaptation, Test-Time Adaptation과 같은 새로운 접근법이 모델의 성능을 어떻게 향상시키는지에 대한 내용이 인상적이었습니다. 그러나 실제 상황에서의 다양한 anomaly 유형을 어떻게 효과적으로 잡아낼 수 있는지에 대한 의문이 남았으며, zero-shot 설정이 현실에서 어떻게 효과적으로 활용될 수 있는지에 대한 고민이 더 필요하다는 생각이 듭니다. 본 발표를 통해 AnoVL 뿐 아니라, zero-shot AD에 대해 다시 한번 생각해 보는 기회를 얻었습니다. 좋은 발표 감사드립니다.


  • 2023-11-06 11:15

    이번 세미나는 이미지와 텍스트를 활용하여 이상치를 탐지를 수행하는 AnoVL에 관한 주제로 진행되었습니다. 최근에 주목을 받는 Vision-Language 모델의 일종인 AnoVL은 zero-shot 환경에서 이상치 탐지를 수행하기 위해 Clip의 사전학습 모델에 V-V attention 기반의 Training-free adapation을 적용합니다. 이를 통해 추가 학습 없이도 이미지의 local representation을 더욱 잘 추출할 수 있는 특징을 가집니다. Text와 image를 align하기 위해 생성한 pseudo-label을 활용하여 Test Time Adaptation을 수행합니다. 앞서 언급한 방법론을 결합하여 AnoVL은 기존 CLIP보다 fine-grained task를 비교적 적은 연산량으로도 수행할 수 있는 장점을 가집니다. 다소 생소한 내용이 많았지만, 발표자 분의 상세한 설명 덕분에 수월하게 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-11-06 12:52

    이번 세미나에서는 AnoVL이라는 방법론에 대해 소개해주셨습니다. AnoVL은 training-free adaptation과 test-time adaptation을 도입하여 fine grained local information을 충분히 반영하면서도 zero-shot AD의 성능을 향상시키고자 하였습니다. 특히 fine-grained information을 위한 VV attention이 흥미로웠는데, 논문에 자세히 나오지는 않았지만 VV attention이 왜 fine-grained information을 반영하는데 도움을 줄 수 있는지 그리고 기존의 attention이 왜 fine-grained information을 잘 반영하지 못하는지 잘 알 수 있었습니다. 최근 VL model이 많은 task에 응용되고 있는데, AD 관점에서 어떻게 활용되는지 알 수 있어 좋았습니다. 좋은 발표 감사드립니다.


  • 2023-11-08 00:50

    이번 세미나는 이상치탐지의 세부과업 중 하나인 Anomaly Localization을 수행하기 위해 Vision-Language 모델을 적용한 AnoVL이라는 방법론이 소개되었습니다. Anomaly Localization은 이상치 탐지보다 더 세부적인 과업으로 이미지 상에서 어떤 부분이 이상치를 나타내는지를 보여주는(확인하는) 과업입니다. 본 방법론은 CLIP을 기반으로 하고 있지만 Anomaly Localization과 같은 fine한 과업을 수행하기 어려운 CLIP의 단점을 보완하기 위해 prompt와 Language model을 함께 활용하고 있습니다. 즉, 사진을 설명하는 prompt를 함께 입력하여 이미지와의 align될 수 있는 능력을 향상시킵니다. 특별히 이상치를 나타내는 prompt와 정상을 나타내는 prompt를 동시에 입력하여 contrastive learning의 효과도 함께 이루어냅니다. 한편, 기존 CLIP 내 self attention 계산 부분을 Value-Value attention을 적용했는데, 개인적으로는 v-v attention을 어떻게 생각해냈으며 이게 어떤 효과를 주는지 와닿지는 않습니다. Vision-Language model이 발전함에 따라 단순 이미지/캡션 생성등의 과업에 더해 이상치 localization 과업까지도 수행할 수 있음이 충분히 납득됩니다. 발표 준비하시느라 고생하셨습니다. 감사합니다.


  • 2023-10-23 16:53

    이번 세미나에서는 AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization이라는 논문을 다루었습니다. 해당 방법론은 image와 text의 multimodal 모델인 clip을 기반으로 이상치를 탐지하는 방법론입니다. 해당 논문에서는 기존 clip 기반 방법론들이 anomaly localization과 같은 fine-grained task를 정밀하게 수행하지 못한다는 것을 지적하며, zero-shot setting에서 anomaly detection과 localization을 모두 수행할 수 있는 AnoVL을 제안합니다. AnoVL은 intrinsic local token을 추출하기 위한 Training-Free Adaptation(TFA)과 inference시 anomaly localization 성능 향상을 위한 Test-Time Adaptation(TTA)으로 구성되어 있습니다. TFA에서는 이미지의 domain과 state 그리고 class의 요소로 구성된 text로부터 domain-aware state token을 추출하고, 이와 patch-token간의 연산을 통해 anomaly detection을 수행합니다. 이 때, 일반적인 attention과는 다르게 v-v attention을 사용하여 local feature를 더욱 잘 잡아낸다는 특징이 있습니다. 또한 query image에 대해 adapter를 학습시켜 localization에 대한 효율성을 높입니다. 개인적으로 이상치 탐지를 이러한 방식으로 접근하여 문제를 해결한 것이 참신하다고 느껴졌습니다. 좋은 발표 감사합니다.


  • 2023-10-23 20:06

    본 세미나는 김선우 발표자님의 "AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization"이라는 논문을 바탕으로 진행되었습니다. 먼저 해당 논문의 task는 zero-shot anomaly detection과 localization이라는 task에서 CLIP이라는 모델에 Training-free adaptation과 Test-time adaptation이라는 모듈을 붙여 성능을 향상시키고 있습니다. CLIP이라는 모델이 많이 다루어져, 해당 모델은 multi-class one model scheme라는 기존 모델들은 사전정보가 없는 카테고리나 open-set 시나리오 상황에서 이상치 탐지를 잘 수행하지 못하고 있기 때문에 이미지 및 텍스트 임베딩 간 contrastive learning을 통해 해당 문제점을 해결하고 있습니다. 그리고 이를 발전시킨 것이 AnoVL이라는 본 논문에서 제안하는 모델이며, 해당 모델은 intrinsic dense feature를 직접 추출하여 anomaly localization과 같은 fine-grain된 task를 잘 다루는 개선과 제한된 local descriptor를 구성하였습니다. 세미나를 들으면서 흥미롭게 들은 부분은 Domain-aware state prompting이라는 것인데, 이는 normal한 prompt와 abnormal한 prompt를 {domain, state, class}를 변환시켜서 상반되는 개념을 강조하는 기법이었습니다. 두 번째는 value-to-value attention인데 이는 이는 Q-K attention이라는 기법이 semantic 영역에 집중되는 현상을 보여, 같은 semantic을 갖는 nearby token은 연결하여 feature 간 코사인 유사도를 보장하는 기법입니다. 두 가지 다 anomaly localization이라는 세밀화된 영역을 탐지하는 것에 효과적이며, 본 모델의 가장 주요한 기여점이라고 생각했습니다. anomaly라는 것이 정의하기 나름이고, zero-shot이라는 일반화 성능을 향상시키기 어려운데 이 점들을 해결하는 것이 좋은 논문이라고 생각했습니다. 마지막으로 anmaly detection이라는 분야에 대해 깊게 알지 못했는데, 발표자님께서 상세하게 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2023-10-25 15:58

    금일 세미나는 CLIP 기반의 Vision-Language Model을 이용한 Zero-Shot Anomaly Detection/Localization을 수행한 "AnoVL : Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization"을 중심으로 진행되었습니다. 최근 WinClip 등을 비롯하여 Prompting을 통한 Zero-Shot AD를 수행한는 연구들이 적극적으로 수행되고 있습니다. 하지만, AD 수행을 위해 모델이 Finetune되지 않았기 때문에, 이상치 탐지를 위해 지역 정보가 충분히 활용되지 못하는 한계가 존재합니다. 이에 해당 논문에서는 CLIP Surgery 논문에서 제안된 Value-Value Attention 및 Test time Adaptation을 통한 지역 정보 활용 방법론을 제안하고 있습니다. 특히, 기존 ViT 모델에서 Value가 Q,K,V로 모두 활용하면 지역 정보가 마지막 레이어까지 충분히 전달된다는 점을 이용한 V-V Attention은 기존 연구를 문제 상황에 적절히 활용한 점이 인상적이었습니다. 또한, Test Time Adaptation을 위해 pseudo label을 생성하고, 이를 이용하여 Text-Image Alignment 성능을 극대화하는 모습 역시 적절히 기존 테크닉들이 활용된 모습이었습니다. AD 분야에서 지속적으로 CLIP 등의 VL 모델들이 활용되고 있는 것 같습니다. 아직까지 정상 데이터로 학습한 Image 모델 대비 장점이 명확히 부각되지 못하고 있지만, 지속된 연구를 통해 오히려 수렴되어 가는 AD 분야에서 돌파구가 될 수 있을 것 같습니다. 감사합니다.


  • 2023-11-01 12:00

    이번 세미나에서는 Vision-Language 모델을 이용해 Anomaly Detection Task를 수행하는 AnoVL에 대해 다뤄주셨습니다. 해당 방법론은 기존에 Vision-Language 모델을 이용해 Anomaly Detection을 수행했던 첫번째 방법론인 WinCLIP의 긴 inference 시간, CLIP을 사용하기 때문에 find grained local information을 잘 살릴 수 없다는 문제를 해결하기 위해 방법론을 제안합니다. 본 방법론에서는 CLIP의 pretrained model로 부터 local representation을 얻기 위해 V-V attention을 활용하는 Training-free Adaption을 제안하며 추가 학습 없이 이미지의 local 정보를 최대한 살릴 수 있다 주장합니다. 이 뿐만 아니라 효율적인 zero-shot을 위해서 Test-Time Adaption을 제안합니다. Zero-shot임에도 불구하고 Learning objective를 갖는다는 것이 상당히 낯설었는데, 한 이미지에 대해 더 나은 representation을 얻기 위해 한 이미지로 학습한다라는 것이 상당히 새로운 개념이었습니다. 최근 VIsion-Language 모델을 이용해 Anomaly Detection을 수행하는 방법론들이 계속해서 제안되고 있는데, weakly supervised detection 방식의 큰 틀은 유지 되면서 세부 방법이 조정되는 것 같습니다. 좋은 발표 감사합니다!


  • 2023-11-01 17:51

    이번 세미나에서는 Vision-Language model을 zero-shot anomaly detection과 localization을 수행하고자 하였던 'AnoVL: Adapting Vision-Language Models for Unified Zero-shot Anomaly Localization'이라는 논문을 소개해 주셨습니다. 해당 논문에서는 VLM으로 CLIP을 사용하고 있고 CLIP은 local patch token과 text embedding간의 align이 부족하다는 점과 기존 VLM을 anomaly detection 영역에 적용시키고자 하였던 WinCLIP의 경우 시간 비용문제를 해결하고자 해당 모델이 등장하였다는 점을 알 수 있었습니다. AnoVL은 크게 1) Training-free Adaptation (TFA)와 2) Test-time Adaptation (TTA)을 도입했다는 점이 특징입니다. 1) TFA의 경우 local-aware patch token을 구하기 위해 V-V attention을 함으로써 confused relation map이 생성되는 것을 막고자 하였고 또한 Domain-aware State Prompting 전략을 제시하여 fine-grain된 anomaly localization을 고려한 prompt template을 제시하고자 노력했다는 것을 알 수 있었습니다. 2) TTA에서는 보다 자세히는 non-linear residual-like adapter를 제시하며 직접적으로 visual token에 perturbation을 가하여 parameter를 update하는 학습 전략을 제시하고 있습니다. 개인적으로는 VLM을 anomaly detection 영역에 적용한 WinCLIP이나 소개해주신 AnoVL을 처음 접하여서 해당 연구분야에서 여태까지 어떠한 접근법으로 Anomaly detection을 수행하고자 하였는지 알 수 있어서 너무 유익하였습니다. 다만, Unified zero-shot Anomaly detection 영역에서는 AnoVL이 UniAD의 성능을 못 넘는 것으로 보아 여전히 한계점이 존재하는 것 같아 더 많은 연구가 기대되긴 하지만 AnoVL에서 소개한 V-V attention부터 시작하여 local path token에 대한 접근 모두 참신하고 흥미로웠던 것 같습니다. 많은 점을 배울 수 있도록 꼼꼼하게 발표자료를 구성해 주시고, 발표를 준비해주신 발표자분께 감사인사를 드립니다!


전체 512
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10922
관리자 2020.03.12 0 10922
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9578
관리자 2020.03.12 0 9578
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10679
관리자 2020.03.12 0 10679
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (13)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 153
Minjeong Ma 2025.06.07 0 153
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 36
Minjeong Ma 2025.06.02 0 36
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 33
Kiyoon Jeong 2025.06.02 0 33
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 32
Woongchan Nam 2025.06.02 0 32
505
비밀글 [Rehearsal] 석사학위 논문심사 - 이상민 (21)
SangMin Lee | 2025.06.02 | 추천 0 | 조회 34
SangMin Lee 2025.06.02 0 34
504
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (12)
Siyul Sung | 2025.05.31 | 추천 0 | 조회 241
Siyul Sung 2025.05.31 0 241
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 268
Woojun Lee 2025.05.20 0 268
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 248
Jinwoo Park 2025.05.16 0 248
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im | 2025.05.15 | 추천 0 | 조회 231
Hun Im 2025.05.15 0 231
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 397
Junyeong Son 2025.05.08 0 397

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호