[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection

작성자
Jaehyuk Heo
작성일
2026-02-12 09:08
조회
529

Topic


  • Recent Research Trends Foundation Model for Visual Anomaly Detection

Overview


  • Vision Anomaly Detection을 위한 Foundation Model 연구 흐름
  • One Language-Free Foundation Model is Enough for Universal Vision Anomaly Detection 논문 소개
  • Next step

발표자료 및 발표영상


  • 발표자료: 첨부 파일
  • 발표영상: 추후 첨부

참고문헌


  1. One Language-Free Foundation Model is Enough for Universal Vision Anomaly Detection. 2026.01.06. arXiv preprint.
전체 10

  • 2026-02-15 23:00

    이번 세미나는 “One Language-Free Foundation Model is Enough for Universal Vision Anomaly Detection” 논문을 중심으로, 전반적인 zero-shot anomaly detection의 흐름과 이를 재해석하는 최근 연구들을 소개해주신 시간이었습니다. 최근에는 CLIP 기반의 다양한 접근법이 도입되면서, 산업 이상 탐지 분야에서 zero-shot 환경에서도 높은 성능을 달성하는 사례가 증가하고 있습니다. 그러나 본 논문은 언어-비전 정합을 활용하지 않더라도, 단순 Vision Foundation Model만으로도 충분히 zero-shot anomaly detection이 가능하다는 점을 제시합니다. 구체적으로는 사전학습된 모델의 중간 레이어 표현을 활용하고, auxiliary dataset을 통해 normal/abnormal을 구분하는 간단한 MLP만 학습하는 방식으로도 높은 zero-shot 성능을 달성할 수 있음을 보였습니다. 다만, 이러한 설정을 진정한 zero-shot으로 볼 수 있는지, 혹은 domain adaptation의 관점으로 해석해야 하는지에 대해서는 여전히 고민의 여지가 있다고 느꼈습니다. 그럼에도 불구하고, 기존 CLIP 중심의 흐름과는 다른 관점을 제시함으로써 관련 연구 분야에 새로운 논의를 촉진할 수 있는 의미 있는 논문이라는 인상을 받았습니다. 좋은 논문을 소개해주셔서 감사합니다.


  • 2026-02-16 17:46

    이번 세미나는 Image Anomaly Detection의 전반적인 연구 동향을 소개해주셨고, 특히 Zero-shot Anomaly Detection의 최신 연구인 "One Language-Free Foundation Model is Enough for Universal Vision Anomaly Detection" 논문을 소개해주셨습니다. Single-class AD부터 Multi-class AD, Zero-shot AD까지 연구가 진행되오면서 점점 AD 분야에서도 Foundation Model을 사용하려는 흐름이 계속되어 왔고, 그 중에서도 CLIP의 image-text alignment를 이용한 접근법이 주로 사용되어 왔습니다. 하지만 최근에는 이를 위한 Supervised Learning 및 복잡한 구조(Adapter, learnable embedding 등)를 사용하게 되면서 점점 "Foundation Model의 본질인 범용성"을 잃어가는 것이 아닌가? 라는 생각을 공유해주셨고, 소개해주신 논문 또한 이러한 점을 지적하여 오로지 Vision Model만으로도 높은 Zero-shot AD 성능을 보일 수 있음을 증명한 연구였습니다. 또한 추후 연구 방향인 Unsupervised Zero-shot AD 및 AD 분야를 위한 Foundation Model 연구 측면에서 의견을 공유해주셨습니다. 덕분에 앞으로 어떤 방향으로 연구를 이어나가야 할 것인지에 대해 전반적인 시야를 넓힐 수 있었습니다. 좋은 발표 감사합니다.


  • 2026-02-18 08:38

    이번 세미나에서는 이미지 이상치 탐지 연구 분야 전반에 대해서 다루어졌습니다. One-class 이상치 탐지부터 Few-shot 이상치 탐지까지 LLM의 발전과 더불어 VLM을 기반으로하는 방법론들이 많이 등장하였습니다. 이 중에서도 가장 현실적인 과업은 Multi-class 이상치 탐지인 것 같습니다. 실제 상황에서도 다양한 군의 정상 이미지가 확보가 가능하기 때문에 굳이 한 가지 군의 정상 이미지만을 학습할 이유는 없지 않을까 생각합니다. 소개해주신 내용을 기반으로 설명한다면, A,B,C 군의 정상 이미지를 가지고 D 이미지를 유추하는 방법은 없을까 궁금합니다. 한편, 소개해주신 연구는 VLM을 이용하는 방법론들에서 오히려 텍스트 정보를 처리하는 것이 오히려 방해가 되어 이미지 정보만으로도 여전히 높은 성능을 나타낼 수 있음을 보여주었습니다. 개인적으로는 CLIP을 기반으로한 방법론에서 프롬프팅이 너무 정형화되어 오히려 부자연스럽게 보였는데 이러한 점도 단점이 되지 않았나 싶습니다. 흥미로운 발표 준비해주셔서 감사합니다.


  • 2026-02-18 09:50

    이번 세미나는 Visual Anomaly Detection 분야에서 Foundation Model 기반 연구 흐름을 정리해주시고, 특히 “One Language-Free Foundation Model is Enough for Universal Vision Anomaly Detection” 논문을 통해 vision-only 접근법의 가능성을 소개해주신 유익한 시간이었습니다. 최근에는 CLIP과 같은 vision-language model을 활용한 zero-shot anomaly detection 연구가 활발히 진행되어 왔으며, prompt engineering이나 adapter와 같은 추가적인 학습 요소를 통해 성능을 향상시키는 방향으로 발전해왔습니다. 그러나 이러한 흐름 속에서 foundation model 자체의 representation을 얼마나 효과적으로 활용할 수 있는지에 대한 고민도 필요하다고 느꼈습니다.
    소개해주신 논문은 language modality 없이도 사전학습된 vision foundation model의 representation만으로 높은 zero-shot anomaly detection 성능을 달성할 수 있음을 보여주었다는 점에서 인상 깊었습니다. 특히 auxiliary dataset을 활용하여 간단한 classifier만 학습하는 구조로도 기존 방법들과 경쟁력 있는 성능을 보였다는 점이 foundation model representation의 일반화 성능을 잘 보여주는 사례라고 생각합니다. 다만 auxiliary dataset을 활용한 classifier 학습이 strict한 의미의 zero-shot 설정인지에 대해서는 추가적으로 고민해볼 필요가 있다고 느꼈습니다. 그럼에도 불구하고 vision foundation model 자체의 가능성을 다시 한번 보여준 의미 있는 연구라고 생각됩니다. 좋은 발표 감사합니다!


  • 2026-02-18 17:13

    AI 분야 연구의 과열 양상이 오래 유지되면서 많은 영역들이 빠르게 포화되고, next step을 갈구하기 때문에 분야의 전반적인 흐름에 지속적으로 공감해두는 것이 언제나 중요한 것 같다고 느낍니다. 이번 세미나에서도 Visual Anomaly Detection 분야의 Foundation Model 연구가 어떤 경향으로 이어지고 있는지 잘 정리해주셔서 압축적이고 직관적인 흐름 파악을 할 수 있었습니다. Few-Shot과 Zero-Shot으로 넘어가는 순서가 자연스럽게 느껴졌으며, 딥러닝 모델의 적용 현장에서 실제로 발생하는 수요의 유형이 어떤 것인지 목격할 기회가 많지 못했기에 이러한 방향의 연구가 어떻게 활용될지 궁금하기도 했습니다. 여러 연구들 중에서, 가장 기본적이고 직관적인 구조가 제일 높은 범용성과 성능을 보인 것처럼, foundation model의 본질적 목표인 범용성을 잃지 않는 것이 중요할 것 같았습니다. Zero-Shot 모델로 넘어가는 흐름이 예견에서 현실로 변한 것처럼, 이러한 거시적 인사이트를 유지하며 최신 연구들로부터 더 나아가려는 자세를 상기하는 계기가 되었습니다. 좋은 세미나 감사합니다!


  • 2026-02-19 20:42

    금일 세미나는 “Recent Research Trends: Foundation Model for Visual Anomaly Detection”를 주제로 진행되었습니다. 이번 스터디는 특정 방법론을 깊게 파고들기보다는, 최근 Visual Anomaly Detection 분야에서 파운데이션 모델이 어떻게 활용되고 있는지 전반적인 흐름을 소개하는 형태로 진행되었습니다. 기존 Visual Anomaly Detection는 class별로 별도의 모델을 학습하는 경우가 많아, 모델 수가 늘어날수록 메모리 비용과 학습 시간이 크게 증가하고 새로운 클래스가 추가될 때마다 추가 학습이 필요하다는 한계가 있습니다. 이러한 배경에서, 하나의 모델로 다양한 클래스에서의 이상을 보다 일반적으로 탐지하려는 방향이 중요한 연구 흐름으로 제시되었습니다. 소개해주신 UniADet은 기존의 language-dependent zero-shot AD와 달리, 텍스트 정보 없이 소수의 정상 이미지만을 활용하여 비전 인코더 기반으로 이상 탐지를 수행한다는 점이 특징입니다. 해당 연구에서는 텍스트 기반 zero-shot AD가 부가 모듈로 인해 구조가 복잡해질 수 있다는 점을 지적하며, 텍스트 대신 학습을 통해 구성한 classifier를 이용해 이미지 모델만으로 zero-/few-shot 이상 탐지가 가능하도록 설계했다는 관점을 제시했습니다. 구체적으로는 (1) 파운데이션 모델의 표현을 기반으로 정상/비정상 판별이 가능한 classifier를 auxiliary dataset으로 학습하고, (2) ViT 기반 모델은 representation만으로도 정상/비정상 구분이 가능함을 보이며, (3) CLS 토큰과 patch 토큰이 서로 다른 공간에서 분포하고 레이어별로 manifold가 달라질 수 있어 레이어 별 개별 classifier의 필요성을 강조한 점이 인상적이었습니다. 전반적으로 생소할 수 있는 내용을 체계적으로 설명해 주셔서, 이미지 이상탐지 분야에서 파운데이션 모델을 활용하는 최근 연구 흐름을 개괄적으로 이해하는 데 큰 도움이 되었습니다. 좋은 발표 정말 감사드립니다.


  • 2026-02-25 13:54

    이번 세미나는 “One Language-Free Foundation Model is Enough for Universal Vision Anomaly Detection” 논문을 중심으로, Visual Anomaly Detection 분야에서 Foundation Model이 어떻게 활용되어 왔는지 큰 흐름을 정리해 주신 시간이었습니다. One-class에서 Few-shot, 그리고 Zero-shot으로 확장되어 온 연구의 발전 과정을 짚어주신 덕분에, 최근 CLIP 기반 접근이 왜 주류가 되었는지 자연스럽게 이해할 수 있었습니다.
    특히 본 논문이 language-vision alignment에 의존하지 않고, 사전학습된 Vision Foundation Model의 representation 자체만으로도 높은 zero-shot anomaly detection 성능을 달성할 수 있음을 보였다는 점이 인상 깊었습니다. 중간 레이어 feature를 활용하고 auxiliary dataset을 통해 간단한 MLP classifier만 학습하는 비교적 단순한 구조임에도 경쟁력 있는 성능을 달성했다는 점은, foundation model의 표현력이 생각보다 강력하다는 것을 다시 한번 느끼게 해주었습니다. 동시에 이러한 설정을 엄밀한 의미의 zero-shot으로 볼 수 있는지, 혹은 domain adaptation의 연장선으로 해석해야 할지에 대해서는 충분히 고민해볼 필요가 있다고 생각했습니다.
    전반적으로 CLIP 중심의 기존 흐름에 대해 비판적으로 재조명하고, vision-only 접근의 가능성을 제시했다는 점에서 의미 있는 논문이라는 인상을 받았습니다. Foundation Model의 본질적인 범용성을 어떻게 유지하면서 실제 anomaly detection 문제에 적용할 것인지에 대해 다시 생각해보게 만든 유익한 세미나였습니다. 좋은 발표 감사합니다.


  • 2026-02-25 15:52

    이번 세미나 주제는 “Foundation Models for Industrial Anomaly Detection”으로, 산업 현장의 복잡한 데이터를 처리하기 위해 거대 모델을 이상치 탐지(IAD)에 접목하는 최신 연구 흐름을 상세히 짚어주셨습니다. 단순히 특정 데이터셋에 과적합된 모델을 만드는 것이 아니라, Segment Anything Model(SAM)이나 CLIP 같은 강력한 비전 파운데이션 모델을 활용하여 다양한 산업 도메인에서도 일반화된 성능을 낼 수 있는 방법론들을 접할 수 있어 매우 유익했습니다. 특히 April-GAN이 보여준 픽셀 레벨의 정밀한 이상치 복원 방식이나, 텍스트 프롬프트를 통해 이상 징후를 언어적으로 정의하는 멀티모달 접근법은 실제 현장의 다양한 요구사항을 반영할 수 있는 매우 실용적인 해결책이라는 생각이 들었습니다. 개인적으로는 데이터가 부족한 산업 환경에서 이러한 사전학습 지식이 Zero-shot 성능을 극적으로 끌어올리는 과정이 흥미로웠으며, 모델의 해석 가능성을 높이는 프롬프트 엔지니어링의 역할에 대해 다시금 고민해 보게 되었습니다. 시각적 정보와 언어적 문맥의 결합을 통해 IAD의 패러다임이 변화하고 있음을 확인시켜 준 훌륭한 세미나였습니다. 깊이 있는 논문 리뷰와 통찰을 공유해 주셔서 감사합니다.


  • 2026-02-26 14:31

    이번 세미나에서는 “Recent Research Trends Foundation Model for Visual Anomaly Detection”를 주제로, Visual Anomaly Detection 분야에서 Foundation Model이 어떻게 활용되어 왔는지와 함께, 최근 제안된 vision-only 기반 zero-shot 이상 탐지 방법에 대해 체계적으로 정리해주셔서 많은 인사이트를 얻을 수 있었습니다. 기존에는 CLIP과 같은 vision-language model의 image–text alignment를 활용해 프롬프트 설계와 추가 모듈(adapter, learnable prompt 등)을 더해 성능을 끌어올리는 흐름이 주류였다면, 이번에 다뤄주신 논문은 언어 정보를 완전히 배제한 채 사전학습된 Vision Foundation Model의 중간 레이어 표현과 auxiliary dataset을 활용한 간단한 MLP classifier만으로도 경쟁력 있는 zero-shot anomaly detection 성능을 달성할 수 있음을 설득력 있게 보여주었다는 점이 인상 깊었습니다. 특히 클래스별로 모델을 따로 학습하던 전통적인 설정에서 벗어나, 하나의 파운데이션 모델로 다양한 도메인과 클래스에 걸쳐 일반화 가능한 AD를 수행하려는 최근 연구 흐름을 잘 정리해주셔서, 향후 Few-shot AD, Multi-class AD를 넘어 보다 실제 환경에 가까운 세팅으로 확장할 때 어떤 방향성을 가져가야 할지 생각해볼 수 있는 기회가 되었습니다. 한편 auxiliary dataset을 활용해 classifier를 학습하는 설정이 엄밀한 의미의 zero-shot으로 볼 수 있는지, 혹은 domain adaptation 또는 transfer learning의 한 형태로 해석해야 하는지에 대한 논의도 흥미로웠으며, foundation model의 범용성을 유지하면서도 실질적인 성능과 실용성을 확보하기 위해 앞으로 어떤 실험 설계와 평가 프로토콜이 필요할지 고민하게 되었습니다. 전반적으로 복잡한 내용을 무리 없이 따라갈 수 있도록 연구 동향, 문제 정의, 방법론, 한계점과 향후 연구 과제까지 일관된 흐름으로 정리해주셔서 Visual Anomaly Detection 분야의 big picture를 다시 한번 점검할 수 있는 매우 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2026-02-26 15:49

    이번 세미나는 "Recent Research Trends Foundation Model for Visual Anomaly Detection"를 주제로 진행되었습니다. Visual Anomaly Detection 분야의 연구 흐름을 one-class, multi-class, zero/few-shot, foundation model 관점에서 매우 체계적으로 정리해주셨습니다. 특히 기존 vision-language 기반 zero-shot AD가 갖는 구조적 복잡성(프롬프트, 어댑터, 텍스트 의존성)을 짚고, 이를 순수 visual foundation model 기반으로 단순화하려는 UniADet의 문제의식을 명확히 전달해 주신 점이 인상 깊었습니다. UniADet이 CLS/patch 및 layer별 representation의 분리를 기반으로 classification과 segmentation을 decoupling하고, auxiliary dataset을 활용해 최소한의 classifier만 학습함으로써 zero/few-shot 성능을 달성했다는 점은, 최근 “튜닝의 끝은 순정”이라는 메시지와도 잘 맞닿아 있다고 느꼈습니다. 또한 backbone이 강력해질수록 성능이 자연스럽게 향상되는 실험 결과는, 향후 visual foundation model 발전이 anomaly detection 성능으로 직접 연결될 수 있음을 잘 보여주는 사례라고 생각합니다. 마지막으로 제시해 주신 Future Works에서처럼, unimodal representation 간 implicit alignment가 실제로 어느 수준까지 anomaly semantics를 공유하는지, 그리고 어떤 조건에서 language-free 접근이 한계를 드러내는지에 대한 분석은 이후 연구에서 매우 중요한 질문이 될 것 같습니다. 전반적으로 foundation model 시대의 Visual AD 연구 방향을 한눈에 이해할 수 있는 유익한 발표였습니다.


전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15686
관리자 2020.03.12 0 15686
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14410
관리자 2020.03.12 0 14410
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15387
관리자 2020.03.12 0 15387
553
[Paper Review] Why CLIP fails at Dense Prediction Task? (9)
Jinwoo Jang | 2026.04.06 | 추천 0 | 조회 147
Jinwoo Jang 2026.04.06 0 147
552
[Paper Review] Dynamic Large Concept Models (13)
Jaeyong Ko | 2026.03.30 | 추천 0 | 조회 185
Jaeyong Ko 2026.03.30 0 185
551
[Paper Review] Programming Refusal with Conditional Activation Steering (15)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 457
Sunmin Kim 2026.03.10 0 457
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 358
Sunghun Lim 2026.03.01 0 358
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 264
Suyeon Shin 2026.02.25 0 264
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 529
Jaehyuk Heo 2026.02.12 0 529
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 535
Hyeongwon Kang 2026.02.10 0 535
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 638
Hankyeol Kim 2026.02.03 0 638
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13)
Sieon Park | 2026.01.29 | 추천 0 | 조회 640
Sieon Park 2026.01.29 0 640
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 410
Subeen Cha 2026.01.28 0 410

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호