[Paper Review] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

Paper Review
작성자
Junyeong Son
작성일
2025-08-28 13:17
조회
1660
  1. 논문 제목 : Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models(CVPR 2025 Highlight)
  2. 논문 링크 : https://arxiv.org/pdf/2502.07601
  3. 깃허브 링크 : https://xujiacong.github.io/Anomaly-OV/
  4. 인용 수 : 14회(2025년 8월 28일 기준)
  5. 요약
    • 인간의 시각 검사를 모방한 Anomaly Expert를 도입해 LLM이 의심스러운 시각 토큰을 효과적으로 선택하도록 돕는 새로운 MLLM 구조 제안
    • 이상 탐지 및 추론 연구의 데이터 부족 문제를 해결하기 위해 최초의 Instruction 데이터셋 및 벤치마크 제안
    • Anomaly-OV는 효과적인 ZSAD 성능 및 LLM을 통한 탐지 및 추론 능력을 보임
  6. 발표 자료 및 영상
    1. 발표 자료 : 하단 첨부
    2. 발표 영상
전체 6

  • 2025-08-30 09:27

    이번 세미나에서는 이미지 이상 탐지에서 MLLM을 적용하여 이상 탐지 과정에서의 설명력 및 추론 능력을 강화하고자 한 연구인 'Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models'가 소개되었습니다. 이번 세미나를 통해 멀티모달 LLM이 단순히 이미지를 분류하는 수준을 넘어, 인간처럼 “어디가 이상한지/ 왜 이상한지”를 설명할 수 있도록 설계될 수 있다는 점이 인상 깊었습니다. 특히 인간의 시각 검사를 모방한 Anomaly Expert 모듈(LTFM, VT Selector)을 통해 의심스러운 시각 토큰을 선택·강조하는 방식은, 모델이 단순히 결과를 맞히는 것이 아니라 신뢰성 있는 추론 과정을 보여준다는 점에서 의미가 크다고 느꼈습니다.
    또한 이상 탐지 분야는 데이터 부족 문제가 항상 제약으로 작용했는데, 발표에서 소개된 Anomaly-Instruct-125k와 VisA-D&R 같은 새로운 데이터셋 및 벤치마크는 학계뿐 아니라 실제 산업 응용에서도 중요한 기여를 할 수 있을 것 같았습니다. 단순한 탐지를 넘어 잠재적 원인과 개선 방향까지 설명할 수 있는 프레임워크라는 점에서, 앞으로의 연구 방향성을 잘 제시했다고 생각합니다.
    다만 개인적으로 아쉬웠던 점은, pixel-level 성능이나 AUROC 외의 다양한 지표도 함께 다뤄졌다면 더욱 설득력이 있었을 것 같다는 부분입니다. 그럼에도, 이번 연구는 MLLM을 이상 탐지에 본격적으로 접목한 초석이 될 만한 가치 있는 시도라고 느꼈습니다. 좋은 연구 소개해 주셔서 감사합니다!


  • 2025-09-01 18:32

    이번 세미나는 멀티모달 LLM을 활용해 제로샷 이상 탐지와 추론을 동시에 수행할 수 있는 Anomaly-OV 모델을 소개했습니다. 기존의 이상 탐지 기법들이 단순히 “이상 여부”만 예측하는 데 그쳤다면, Anomaly-OV는 인간의 시각 검사를 모방한 모듈(Look-Twice Feature Matching, Visual Token Selector)을 통해 의심 영역을 식별하고, 이에 대한 설명과 근거까지 제시한다는 점이 신선했습니다. 특히 Instruction 데이터셋(Anomaly-Instruct-125k, VisA-D&R)을 새롭게 구축해 LLM의 추론 능력을 학습·평가할 수 있도록 했다는 점도 의미가 크다고 느꼈습니다. 다만 모델 구조가 다소 복잡하고, AUROC 하나의 지표만 제시된 점, 그리고 pixel-level 성능에 대한 결과가 부족하다는 점은 아쉬웠습니다. 그럼에도 불구하고 “탐지에서 설명으로” 발전하는 방향성을 잘 보여주었다는 점에서 인상 깊은 연구였고, 앞으로 AD 분야에서 MLLM의 확장 가능성을 확인할 수 있는 좋은 발표였습니다.


  • 2025-09-05 15:45

    이번 세미나에선 'Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models' 논문을 소개해주셨습니다. 멀티모달 LLM을 활용해 이미지 이상 탐지에서 단순 판별을 넘어, “어디가 이상한지”와 “왜 이상한지”를 설명할 수 있도록 설계된 점이 인상적이었습니다. 특히 인간의 시각 검사를 모방한 Anomaly Expert 모듈을 통해 의심스러운 시각 토큰을 선택하고, LLM을 이용해 신뢰성 있는 추론 과정을 보여준다는 점이 의미 있게 다가왔습니다. 데이터 부족 문제를 해결하기 위한 Instruction 데이터셋과 새로운 벤치마크 구축도 학문적·실무적으로 중요한 시도라고 생각합니다. 다만 pixel-level 성능이나 다양한 평가 지표에 대한 추가적인 논의가 있었다면 더 좋았을 것 같다는 아쉬움도 남습니다. 그럼에도 이상 탐지 분야에서 MLLM의 확장 가능성을 확인할 수 있었던 유익한 발표였습니다. 좋은 연구 소개 감사합니다!


  • 2025-09-05 15:49

    금일 세미나는 zero-shot AD를 수행한 "towards zero-shot anomaly detection and reasoning with multimodal large language models"를 중심으로 진행되었습니다. 기존의 일반화 모델 연구들은 정상 이미지의 feature를 잘 포착할 수 있는 학습 방법론을 제안하는데 집중하였지만, 해당 논문은 인간의 시각 정보 인지 과정을 모사하여 이미지 내 이상치 후보 영역을 패치 단위로 선택하고 이에 대한 묘사를 VLLM으로 진행하고 있습니다. 특히 이상 패치를 탐색할 때, global 한 관점에서 전체 이미지 중 후보 패치들을 선택하고, 해당 패치들 각각에 대해 확대하여 다시 한번 확인하는 작업을 거치는 점이 특이하였습니다. 다만, 다소 복잡한 모델 구조에도 불구하고 각 구조의 존재 목적에 대한 설명이 매우 부실하고 탐지 과정 자체는 pixel 단위로 가능해 보임에도 불구하고 이미지 단위의 metric만 측정한다는 점이 아쉬웠습니다. 그럼에도 해당 연구가 이미지 이상치 분야에서 VLLM의 활용 방향성을 제시했다는 점이 인상적이라고 생각합니다. 좋은 발표 감사합니다.


  • 2025-09-09 10:23

    이번 세미나는 멀티모달 LLM을 활용해 이상 탐지와 설명을 동시에 수행할 수 있는 Anomaly-OV 모델을 다룬 논문 “Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models”를 중심으로 진행되었습니다. 기존의 이상 탐지 연구들이 주로 “이상 여부”에만 초점을 맞춘 반면, Anomaly-OV는 시각적 의심 영역을 자동 식별하고, 해당 영역에 대한 자연어 기반 설명까지 제공하는 구조로 구성되어 있어, 인간 전문가의 검사 과정을 모사하고 있다는 점이 인상 깊었습니다. 특히 Look-Twice Feature Matching과 Visual Token Selector를 통해 LLM에게 의미 있는 입력을 효과적으로 전달하려는 설계가 흥미로웠습니다. 또한 Instruction 기반 학습을 위한 자체 데이터셋 구축도 LLM의 reasoning 능력 강화를 위한 실용적인 시도라고 느껴졌습니다. 다만 pixel-level 성능 지표 부재, 복잡한 구조에 비해 설명이 부족한 점은 아쉬움으로 남았습니다. 그럼에도 불구하고, 이상 탐지 분야에서 단순 판별을 넘어 해석과 설명으로의 전환을 보여준 좋은 연구였습니다.


  • 2025-09-09 13:17

    이번 세미나에서는 "Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models" 라는 주제로 진행되었습니다. 기존의 이상 탐지 연구가 정상/이상 유무의 판별에 집중했던 반면, 이번 발표에서는 인간의 시각 검사 행동을 모방해 멀티모달 LLM(Multimodal Large Language Model)이 이상 영역을 능동적으로 탐색하고, 그 근거와 함께 자연어로 설명하는 새로운 구조인 Anomaly-OneVision(Anomaly-OV)가 소개되었습니다. 핵심은 패치 단위의 시각적 토큰 중 의심 영역을 선택하는 'Look-Twice Feature Matching (LTFM)' 메커니즘과, LLM과의 연계를 통한 reasoning까지의 end-to-end 프레임워크를 고안한 점입니다. 특히 이상 탐지·추론용으로 별도 구축한 Instruction 데이터셋과 Benchmark(Anomaly-Instruct-125k, VisA-D&R)를 공개했다는 점이 데이터 부족 문제를 실제로 해결할 수 있는 시도처럼 보였습니다. Anomaly-OV는 단순 탐지부터 해석 가능 AI까지 비전-언어 통합 모델의 진보 방향성을 제시한 사례로, 이후 멀티모달 AI의 anomaly reasoning과 실전 적용 연구에 중요한 시사점을 제공했다고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.


전체 554
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 14647
관리자 2020.03.12 0 14647
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 13415
관리자 2020.03.12 0 13415
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 14359
관리자 2020.03.12 0 14359
551
New [Paper Review] Programming Refusal with Conditional Activation Steering (1)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 13
Sunmin Kim 2026.03.10 0 13
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (6)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 125
Sunghun Lim 2026.03.01 0 125
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (8)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 113
Suyeon Shin 2026.02.25 0 113
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 278
Jaehyuk Heo 2026.02.12 0 278
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (8)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 236
Hyeongwon Kang 2026.02.10 0 236
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 319
Hankyeol Kim 2026.02.03 0 319
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (12)
Sieon Park | 2026.01.29 | 추천 0 | 조회 387
Sieon Park 2026.01.29 0 387
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (12)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 266
Subeen Cha 2026.01.28 0 266
543
[Paper Review] Model Merging for Continual Learning (11)
Hun Im | 2026.01.24 | 추천 0 | 조회 275
Hun Im 2026.01.24 0 275
542
[Paper Review] Selective Learning for Deep Time Series Forecasting (13)
Jinwoo Park | 2026.01.24 | 추천 0 | 조회 381
Jinwoo Park 2026.01.24 0 381

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호