번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10411
|
관리자 | 2020.03.12 | 0 | 10411 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9032
|
관리자 | 2020.03.12 | 0 | 9032 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10126
|
관리자 | 2020.03.12 | 0 | 10126 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (3)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 53
|
Doyoon Kim | 2025.05.01 | 0 | 53 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (13)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 139
|
Sunghun Lim | 2025.04.24 | 0 | 139 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (15)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 126
|
Suyeon Shin | 2025.04.21 | 0 | 126 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 170
|
Woongchan Nam | 2025.04.16 | 0 | 170 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 314
|
Kiyoon Jeong | 2025.04.16 | 0 | 314 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 348
|
Hyeongwon Kang | 2025.04.09 | 0 | 348 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 337
|
Jaehyuk Heo | 2025.04.02 | 0 | 337 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 334
|
Jaehee Kim | 2025.04.02 | 0 | 334 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 283
|
Jungho Lee | 2025.04.02 | 0 | 283 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 259
|
Hankyeol Kim | 2025.03.25 | 0 | 259 |
이번 세미나에선 Image Anomaly Detection 과 관련된 두 가지 논문이 소개되었습니다. 첫 번째 논문인 EfficientAD 에선 기존 Anomaly Detection 모델의 인퍼런스 속도를 개선하기 위해 knowledge distillation 방식을 사용합니다. 이전까지 발표자분께서 소개해주신 연구들과 다르게 모델 경량화 목적에서 knowledge distillation을 사용했다는 점이 특징이라 생각되고, teacher에 대한 지나친 모방을 방지하고자 hard feature loss와 loss penalty를 제안하였습니다. 두 번째로 소개해주신 WinCLIP은 Vision & Language를 사전학습한 대표적인 모델인 CLIP을 Anomaly Detection에 사용합니다. CLIP 에서 정의한 prompt를 통해 zero-shot classification을 수행했던 것처럼 AD에 맞는 prompt를 정의하여 zero-shot으로 anomaly classifiation을 수행하였으며, visual reference를 사용하여 few-normal-shot이 가능함을 보인 점도 인상적이었습니다. 좋은 세미나 발표 감사합니다.
이번 세미나는 Efficientad: Accurate visual anomaly detection at millisecond-level latencies와 Winclip: Zero-few-shot anomaly classification and segmentation을 주제로 진행되었습니다. EfficientAD라는 방법론은 inference 속도에 초점을 맞춘 방법론이며 KD 기반의 구조를 활용하여 모델의 크기를 줄여 성능과 효율성을 함께 고려한 모델이였습니다. WinCLIP 은 IMAGE-Language 모델을 활용하여 이상치 탐지 방법론을 제안하였고, 두번째 소개된 WinCLIP은 Zero shot 및 Few shot 상황에서의 이상치 분류 방법론 입니다. CLIP을 통해 프롬프트(prompt) 형태의 설명문과 이미지를 함께 입력하는 multimodality를 활용하고, 이를 이상치 탐지에 활용하는 아이디어가 신선했습니다. 발표에서 이상치로 정의되는 부분에 대해서 저자들이 신경을 많이 썻던 논문같고 다른관점에서 평가와 해석이 의미있던 논문이였습니다. 감사합니다.
이번 연속된 2번의 세미나 시간에는 이미지 이상치 탐지 방법론과 관련하여 2개의 논문을 순차적으로 다루어 보았습니다. 대표적인 이미지 이상치 탐지의 벤치마크 데이터인 MVTecAD의 경우, 최근 소개되는 많은 방법론에서 99%이상의 높은 검출성능을 보여줄 정도로 최근 많은 방법론들이 일정궤도이상의 성능을 보여주고 있다고 합니다. 이러한 상황에서 이번 세미나 시간에 소개된 두가지 논문은 각각 높은 성능과 동시에 가벼운 모델과 그로 인한 빠른 inference 속도를 주장하고 있는 efficient AD 그리고 multimodal 모델과 결합하여 zero(few)-shot 셋팅에서의 이상탐지를 통해 빠른 학습이 가능한 WinClip이 되겠습니다. 거의 시기적으로 비슷한 시기에 소개가 되어 앞으로 일정수준이상으로 올라온 이미지 이상치 탐지 분야의 향후 연구 방향에 대해서 시사하는점이 많았습니다. 처음으로 소개한 efficient AD는 기존 이미지 이상치 탐지 방법론 연구분야에서 상대적으로 주목받지 않은 연산효율을 강조하였으며, 크게는 student-teacher 방식의 학습구조를 사용하고 있습니다. 이때 기존 방법론과 달리 lightweight feature extractor인 PDN을 활용하였으며, 학습과정에서는 단순 loss가 아닌 hard feature loss와 loss penalty를 사용하였는데, 이는 student 모델 학습시 정상 이미지에 대해서만 teacher 모델을 모방할 수 있는 수준으로만 학습을 유도하였으며, 일정 distance(quantile기준으로)를 초과하는 경우에만 loss를 부여하는 방식으로 산출되게 됩니다. 또한 논문에서는 logical anomalies를 탐지하기 위해 는 long-range dependency를 가지는 특성을 가지고 있는 autoencoder를 사용하였다고 하였는데, 본인은 아직 logical anomalies에 대한 개념이 아직 부족하여 이부분이 왜 autoencoder의 long-range dependency와 연결되는지 아직 잘 와 닿지는 않았습니다. 그 외에도 단순 AUROC뿐만아니라, 성능검증을 위한 다양한 metric으로 AUPRO, AU-sPRO, AUPRC 등을 소개하고 제시했다는 점에서 다양한 측면에서 이상치 탐지 성능을 제시해준 것 같다고 생각합니다. 두번째로 소개한 WinCLIP은 이전 논문 가운데 CLIP; Learning Transferable Visual Models From Natural Language Supervision 논문을 활용하여 사전학습된 CLIP모델을 이용하여 zero(few)-normal shot으로 이상치 탐지를 수행하는 방법론을 제안하였습니다. CLIP 논문은 논문의 제목에서도 유추할 수 있듯이 image embedding 과 text embedding 간의 contrastive learning을 통해 align 학습을 수행하는 방법론으로 이는 자연어를 supervision으로 활용하기에 vision task에서도 zero-shot을 적용 가능합니다. WinCLIP은 two class의 language guided anomaly scoring 방식을 제안하는데, 이는 사전에 정의된 정상에 해당하는 text들과 이상치에 해당하는 text들간의 유사도를 계산하여 이를 기준으로 softmax를 통해 anomaly 스코어를 정의합니다. WinCLIP을 통한 anomaly segmentation에서는 3개의 서로다른 scale의 image encoder를 통해 anomaly score map을 생성하는데 최종적인 anomaly scoring map을 위해 harmonic averaging 을 사용한다고 합니다. 이는 개인적인 견해로 anomaly scoring을 하는데 있어 softmax값을 활용하기에 기인하지 않을까 하고 개인적인 유추를 해볼 수 있었습니다. 해당 논문의 경우, 코드가 공개되지 않아 논문에서 다루지 못한 디테일한 부분에 대해서 알 수는 없었지만, 개인적으로는 텍스트 프롬프트를 활용한 multi-modal학습을 통해 이상치 탐지를 수행한다는 점에서 매우 흥미로운 논문이었습니다. 다만, 단순 이미지만의 학습모델이 아니기에 앞서 소개한 논문에서 주목하고 있는 efficient한 학습모델인지에 대해서는 결이 다른 논문이라고 생각됩니다. 두 번의 연속된 세미나 시간을 알차게 채워준 발표자에게 감사의 인사 전하며 후기 마치도록 하겠습니다.
2주에 걸쳐 진행된 본 세미나는 이미지 영역의 이상치 탐지 연구에 대해서 다룹니다. 첫번째로 소개된 논문인 EfficientAD는 MVTecAD 데이터 셋의 SOTA 성능은 더 이상 개선이 어려운 수준에 도달했기 때문에 모델 경량화와 빠른 inference 속도를 달성하는 것에 초점을 맞춥니다. EfficientAD는 teacher-student 구조를 사용합니다. 특히, 빠른 inference를 위해 PDN를 사용하는데, 기존 PDN과 달리, 보다 앞선 레이어에서 downstream을 수행하여 연산량을 줄였습니다. 또한, 딥러닝 기반 AD 모델들이 이상치까지 너무 잘 학습하여 reconstruction loss 상으론 이상치를 판별하기 어려운 문제를 개선하기 위해 normal part를 잘 재건하는 것을 방지해주는 loss penalty term을 제약으로 더해줍니다. 두번째 논문인 WinCLIP은 멀티모달 모델과 결합하여 이상치 탐지를 zero/few shot으로 수행할 수 있는 모델을 제안합니다. 두 논문 모두 이미 벤치마크 데이터 셋에 대한 성능이 100%에 가까운 상황에서 성능 개선보단 활용도를 개선하는 목표를 설정한 것에 있어 매우 유사한 목적을 가집니다. CLIP은 text와 이미지 간의 contrastive learning으로 pre-trained된 Encoder를 활용하여 classification을 수행하는 모델입니다. WinCLIP은 역시 Normal과 Abnormal에 해당하는 text와 이미지 간의 유사도를 CLIP의 text, image encoder의 출력을 활용하여 계산합니다. 사전학습이 된 CLIP Encoder를 활용하기 때문에 저자는 WinCLIP은 zero/few shot 환경에서도 좋은 성능을 보인다 주장합니다. 두 논문 모두 성능 보단 사용자 관점에서 편의성와 활용도를 증대하기 위한 고민을 많이 했다는 것을 느꼈습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Efficientad: Accurate visual anomaly detection at millisecond-level latencies, Winclip: Zero-/few-shot anomaly classification and segmentation 2개의 논문을 다루어 주셨습니다. 전자에서는 높은 성능과 함께 가벼운 모델과 빠른 inference 속도에 집중한 Student-Teacher 구조의 EfficientAD를 소개하고 있습니다. Efficient Extraction of features(PDN)은 lightweight feature extractor로 이용되고 있습니다. 또한 Student-Teacher 구조에서 풍부한 Feature를 Student에게 Target으로 제공하기 위해 knowledge distillation을 이용하고 있습니다. 이때, 효율적이고 빠른 연산을 위해 student와 teacher의 encoder를 모두 PDN으로 이용하고 있는데, PDN만 이용시 탐지 능력이 부족하기에 이러한 차이를 극복자고자 이상 탐지 성능을 향상시키는 새로운 training loss를 도입하였습니다. background에서 다루어 주신 logical anomalies는 처음 접해보는 개념이었는데, 질문을 통해 개념을 짚어주셔서 이해에 많은 도움이 되었습니다다. logical anomaly를 탐지하기 위해 AutoEncoder를 사용하고 있으며 input과 output의 크기가 다르다는 특징이 존재합니다. 후자에서는 multimodal 모델과 함께 zero/few-shot 세팅으로 이상탐지를 수행하는 WinCLIP을 소개해 주셨습니다. 본 논문에서 다루어지고 있는 Compositional Prompt Ensemble(CPE)는 object 상태 정의를 더 명확히 하기 위해 이용되는 방법론이며 라벨별로 상태 단어와 텍스트 템플릿을 이용하여 여러 사전 텍스트 프롬프트를 생성하고 있습니다. cls 토큰과 텍스트 임베딩간의 유사도를 통해 anomaly score를 산출하는 방식을 이용하고 있습니다. 총 3개의 scale을 이용하여 anomaly score map을 산출해주고 있으며, 해당 map을 만들기 위해 harmonic averaging을 이용하고 있습니다. 내용이 상당히 많음에도 불구하고 잘 풀어서 설명해주셔서 잘 이해할 수 있었던 것 같습니다. 좋은 발표 감사합니다!
해당 세미나는 Image Anomaly Detection task에서 EfficientAD와 WinCLIP 두가지 방법론에 대해서 다루어 주셨습니다. 기존의 이미지 이상치 탐지연구들은 supervised setting이나 semi-supervised setting을 가정하고 있습니다. 이러한 세팅은 현실에서 비정상 이미지의 종류가 다양하고 레이블링 어렵다는 점에서 적용하기 어렵습니다. 해당 논문들은 zero-shot setting과 few-normal-shot setting을 고려하였다는 점에서 기존 연구들과 차별화되며 실용적인 contribution이 있습니다. effientAD는 기존의 방법보다 훨신 빠르고 정확하게 이상을 감지할 수 있는 경량의 특징 추출기와 학습방법을 제안합니다. GPU에서 밀리초단위로 이미지를 처리하며 정상 이미지를 예측하는 student model과 이상 이미지 특징을 예측하지 못하게 하는 teacher model로 구성하여 학습합니다. 또한 autoencoder를 결합하여, 정상적인 부분의 잘못된 조합으로 이루어진 이상에 대해서도 감지가 가능합니다. WinCLIP은 efficientAD를 디벨롭한 논문입니다. 해당 논문은 CLIP이라는 vision-language model을 활용해, 이상을 탐지하고 세분화하는 방법을 제안합니다. 이상 이미지에 대한 설명을 입력하고 이상의 종류와 위치를 예측할 수 있습니다. 이 때, 이상 이미지에 대한 레이블이 주어지지 않거나, 정상 이미지에 대한 레이블만 주어진 상태에서도 작동합니다. 그러므로 해당 모델은 zero-shot, few-shot setting에서 좋은 성능을 보였습니다. 좋은 발표 감사합니다!
이번 두 번의 세미나에선 기존의 Image Anomaly Detection 분야의 방법론과 다른 세팅방법으로 접근한 두가지 논문 Efficient AD,와 WinCLIP을 다루어 진행하였습니다. Efficient AD는 Task의 특성상 Edge device에서 빠르게 inference 할 상황에 적합한 모델로 효율성과 성능을 동시에 고려한 모델입니다. Student Teacher 구조를 바탕으로 빠른 inference를 가능케한 conv layer 바로 다음 stride average pooling 을 사용한 lightweight feature extractor를 적용하여, 모델의 가벼움과 높은 성능을 동시에 달성하였습니다. 그리고 이러한 성능 향상을 위해 knowledge distillation과 함께 새로운 training loss를 도입한 것이 흥미롭게 다가왔습니다. WinCLIP은 zero/few-shot 세팅에서의 이상탐지를 위한 새로운 접근법을 제시한 논문입니다. 특히, Compositional Prompt Ensemble(CPE) 방식을 이용해 상세한 object 상태를 정의하고, 여러 사전 텍스트 프롬프트를 생성하여 cls 토큰과 텍스트 임베딩 간의 유사도를 이용한 anomaly score 계산 방식은 참신한 아이디어로 느껴졌습니다. 세미나를 통해 두 논문의 주요 개념과 새로운 접근법에 대해 배울 수 있어서 매우 유익했습니다. 좋은 발표 감사합니다.
이번 세미나에서는 EfficientAD: Accurate visual anomaly detection at millisecond-level latencies와 Winclip: Zero-/few-shot anomaly classification and segmentation 라는 이미지 이상치 탐지 방법론을 다루는 2개의 논문을 다루었습니다. EfficientAD에서는 모델의 inference 속도의 중요성을 강조하면서 lightweight feature extractor를 통해 이상치를 탐지합니다. 또한 student 모델이 teacher 모델을 과도하게 모방하는 것을 방지하기 위한 loss를 제안합니다. 이를 통해 student-teacher 모델의 계산 비용을 크게 줄이면서도 성능을 개선합니다. 또한, logical anomaly의 탐지에서도 효율적으로 대응할 수 있습니다. Winclip은 clip이라는 vision-language model을 기반으로 window를 통해 dense visual feature를 추출하고, visual reference와 compositional prompt ensemble을 통해 효과적으로 이미지 이상치 탐지를 수행합니다. 실험에서 해당 방법론의 inference 속도에서의 강점을 함께 보여준 것이 인상적이었습니다. 이번 세미나에서 Inference 속도라는 관점에서 이상치 탐지 모델들에 대해 분석한 것이 참신했던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나는 두 번에 나누어 진행되었습니다. Image Anomaly Detection 관련 방법론인 EfficientAD와 WinCLIP을 각각 제안한 연구인 “EfficientAD: Accurate Visual Anomaly Detection at Millisecond-level Latencies”와 “WinCLIP: Zero-/few-shot Anomaly Classification and Segmentation”를 소개해주셨습니다. Image Anomaly Detection Task의 대표적인 벤치마크 데이터셋인 MVTecAD의 경우 AUROC Score를 기준으로 거의 100이라는 성능에 도달했습니다. 다른 데이터셋들이 제안되었지만 여전히 대표적인 벤치 마크로 활용되고 있는 현황에서 기존 Image Anomaly Detection 연구들과는 다른 방향에 초점을 둔 연구 두 편을 선정해 공유해주셨습니다. EfficientAD는 이름에도 나와있다시피 높은 성능과 동시에 가벼운 모델과 빠른 Inference 속도 즉, 효율성에 초점을 맞추었습니다. Image Anomaly Detection이 공정에 활용될 경우 온 디바이스에 심어질 수 있을만큼 모델의 크기가 작아야하면서도 추론 속도 또한 빨라야 하기에 해당 부분을 잘 겨냥했다고 느껴졌습니다. 기본적으로 Student-Teacher 구조를 활용하며 모델 파라미터 자체를 줄이기 위해 Encoder로는 PDN을 사용했습니다. 또한 Student가 Teacher를 과도하게 따라하는 것을 방지하기 위해 Hard Feature Loss와 Loss Penalty를 제안해 Student로 하여금 정상 샘플에 대해서만 Teacher를 따라할 수 있도록 유도했습니다. 모델 크기와 Inference 속도라는 효율성에 초점을 맞춘 EfficientAD와 달리 WinCLIP은 Multimodal 모델과 결합하여 Zero/Few-shot 상황에서 이상치 탐지를 수행하는 것에 초점을 맞추었습니다. WinCLIP은 대량의 데이터를 통해 사전 학습된 CLIP을 활용해 이미지와 Text Prompt 간의 유사도를 이용해 Anomaly Score를 산출하는 멀티모달 기반 Anomaly Detection 방법론입니다. 텍스트와 이미지를 함께 이용해 이상치를 탐지하는 방법론을 처음 접해 굉장히 흥미롭게 들을 수 있었습니다. 다만, 매뉴얼하게 작성된 프롬프트를 기반으로 하는데, 이때 이상치의 종류를 전혀 모르는 진짜 Zero-shot Setting에서 사전에 정의된 텍스트 프롬프트에 속하지 않는 이상치의 경우에도 Robust하게 성능을 발휘할 수 있을지에 대한 의구심이 들기는 했습니다. 두 번의 세미나에 걸쳐 흥미로운 두 방법론에 대해 소개해주셔서 유익했습니다. 좋은 발표 감사합니다.
이번 세미나는 2회에 걸쳐, Image Anomaly Detection 분야의 두 논문을 살펴보았습니다. Image Anomaly Detection 분야에서 자주 활용되는 MVTecAD 벤치마크 데이터셋은 최근 다양한 모델들이 99% 이상의 정확도를 나타내는 등 거의 완전히 정복된 태스크로 간주되고 있습니다. 하지만, Inference 속도 및 각 데이터셋 별 학습이 필요하다는 점에서 현업/연구 관점에서 성능 외적으로 더욱 연구될 필요가 있습니다. 이번 세미나는 2회에 걸쳐 추론 속도 및 Zero/Few-Shot의 두가지 연구를 살펴보는 시간을 가졌습니다. 우선 EfficientAD 논문의 경우 millisec 단위의 극단적으로 빠른 추론속도를 목적으로 매우 가벼운 Backbone 모델을 활용하면서도, 다양한 anomaly를 탐지할 수 있도록, Structural Anomaly와 Logical Anomaly 탐지를 위한 모델 구조를 가지고 있습니다. 기존의 AD 태스크가 해당 이미지가 이상치인지, 이상치 구역이 어디인지 탐지하는데 초점을 맞추었다면, 정상 제품이더라도, 갯수 및 위치가 다른 경우를 탐지하는 Logical Anomaly도 함께 탐지할 수 있도록 하고 있습니다. 두번째 논문인 WinClip의 경우 기존 Clip 모델을 이용하여 Zero/Few-Shot 관점에서 이상치 탐지를 시도하고 있습니다. AD 태스크는 일정량 이상의 정상 데이터를 이용하여 정상 분포를 근사하거나 모델링하는 것이 일반적인 데 반해, WinClip은 이상치에 대한 Prompt를 이용하여 매우 소수의 정보를 통해서도 이상치 탐지가 가능하다는 점을 증명하고 있습니다. 다만, AD 태스크가 정상에 대한 정보만 이용한다는 점에 비해, Prompt로 기존의 이상치에 대한 일부 묘사를 이용하는 점에서 완전히 일반화 가능한 방법론으로 보기 힘들다고 생각합니다. 이미지 AD 태스크가 MVTecAD 벤치마크를 중심으로 진행되면서 최근 한계에 봉착한 모습을 보이고 있는데, 점차 극한의 현실 상황을 가정하면서 다양한 시도를 통해 광범위한 문제를 해결하는 시도들이 등장하고 있는 것 같습니다. 좋은 발표 감사드립니다.
이번 세미나는 이미지 anomaly detection 관련 논문인 EfficientAD와 WinCLIP을 주제로 진행되었습니다. EfficientAD의 경우 가볍고 inference 속도에 중점을 두었다면, WinCLIP의 경우 zero shot, few shot에 목적을 두고 있습니다. 먼저 첫번째 논문인 EfficientAD는 기존의 방법론들의 backbone 모델들이 크고, 이미지 해상도가 높은 것을 문제로 굉장히 무겁고, 속도가 느리다는 한계점을 언급하고 있습니다. 이를 해결하고자 EfficientAD는 student-teacher 구조를 사용하고 있는데 teacher 모델은 wide-resnet으로 부터 knowledge distillation을 하는 Patch description network를 사용합니다. 동일한 PDN을 사용하는 student network와 모든 distance를 계산하는 것이 아닌 잘 예측하지 못하는 부분에 대한 distance를 학습하는 hard feature loss를 통해 student는 teacher를 잘 따라하지 못하는 부분에 대해 더 잘 학습할 수 있도록 하였습니다. 그리고 logical constraint를 학습하고 logical anomaly를 탐지하기 위해 auto-encoder 구조를 추가로 사용하였습니다. 이를 통해 global, local anomaly map을 도출할 수 있다는 특징이 있습니다. 해당 논문에 대해서는 이미지에 대해 logical anomaly에 대한 접근을 새로 접할 수 있어 신선하였습니다. 두번째 논문인 WinCLIP은 기존의 방법론들이 특정 클래스에 국한되어 있다는 한계점을 들고 있습니다. 따라서 여러 클래스에 대해 다룰 수 있는 모델이 필요하고 이를 위해 저자는 zero, few shot으로 설정하였습니다. WinCLIP은 Vison-NLP 모델을 anomaly detection task에 적용하였으며 가장 큰 contribution으로는 two class의 language guided anomaly scoring 방식을 제안한 점입니다. language guided anomaly scoring은 anomaly에 대한 클래스들과 nomal에 대한 클래스들로 예측하게 되고 해당 CLS 토큰들과 CPE text embedding과의 유사도를 계산하는 방법입니다. 해당 논문에는 이미지 anomaly detection에 대해서 NLP를 접목했다는 점, normal/abnormal에 대한 templete을 구성하여 anomaly를 탐지하는다는 점이 인상 깊었습니다. 좋은 발표 감사합니다.
이번 세미나는 임훈님께서 "EfficientAD"와 "Winclip"이라는 논문 모델을 중심으로 진행되었습니다. 본 논문들은 모두 Image anomaly detection task에서 다뤄지고 있습니다. 먼저 EfficientAD는 기존 방법론들의 속도화 효율보다는 성능을 우선시 했다는 문제점을, 속도 효율을 우선시하며 개선점으로 내세우고 있습니다. 뿐만 아니라 structural anomalies와 logical anomalies 모두를 고려하는 점에서 차별점을 두고 있으며, MVTecAD 데이터셋과 더불어 여러 데이터셋을 활용하여 검증하고 있습니다. 두 번째 논문인 WinCLIP은 Vision-NLP모델을 Anomaly Detection task에 처음 적용하고 있습니다. 가장 큰 기여점으로는 Two class의 Language guided Anomaly scoring 방식을 제안한 점입니다. 따라서 기존 Language guided로는 탐지할 수 없는 Anomalies를 위해 Visual rerference 방법을 도입하여 준수한 성능을 보여주고 있습니다. 해당 두 논문을 바탕으로 한 세미나를 들으면서 Anomaly detection task에 대해 전반적으로 알 수 있어 좋았고, anomalies를 찾는 방법들이 image 뿐만 아닌 다양한 feature를 활용한다는 점이 요즘 추세라고 생각하였습니다. 마지막으로 발표가 매우 깔끔해 이해하기 편했습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나는 2주에 걸쳐서 진행되는데, 이미지 분야에서 이상치 탐지를 수행하는 Efficient AD: Accurate visual anomaly detection at millisecond-level latencies, Winclip: Zero-few-shot anomaly classification and segmentation 논문에 대하여 다루어 주셨습니다. 이때, 해당 연구들을 같이 소개해주신 이유는 해당 논문들이 단순히 성능만을 고려하지 않고, 기존과는 다른 방향으로 연구를 진행했기 때문입니다. 먼저 EfficientAD는 기존 방법론들이 분명 높은 성능을 보이고는 있지만, 효율적인 연산을 희생하고 있다는 점을 지적하면서 논문을 전개하고 있습니다. 이에 연산 효율에 집중하면서 높은 성능을 달성할 수 있도록 Student-Teacher 구조를 차용하고 있는데, 이때 Student와 Teacher의 Encoder로 Lightweight feature extractor인 PDN을 사용하여 가벼움과 동시에 빠른 Inference 속도를 보이고 있습니다. 또한, Teacher를 과하게 따라 하는 것을 방지하기 위한 Hard feature loss와 Loss panelty를 제안하며, Logical anomaly 역시 탐지하기 위하여 Autoencoder를 사용함과 동시에 이를 Student-Teacher 프레임워크와 결합고 있었습니다. WinCLIP 같은 경우에는 특정 데이터 클래스에 국한되는 것이 아닌, 여러 class에 대응할 수 있는 Unified Model이 필요함을 말하면서, Multimodal 모델과 결합하여 zero/few shot setting으로 이상 탐지 방법론을 제안하고 있습니다. 이를 위하여 추가적인 학습을 하지 않더라도 충분한 Representation을 뽑아낼 수 있도록 Large-scale로 사전 학습된 CLIP 모델을 이용하는 모습을 보이고 있습니다. 이때, 이미지와 사전에 정의된 Text Prompt 간의 유사도를 함께 고려하는 새로운 Anomaly scoring 방식을 제안하고 있고, 이미지의 추상적인 상태를 더 명확히 정의하고자 Composition Prompt Ensemble을 제안하고 있었습니다. 이 과정에서 Sliding window를 통하여 Dense visual Feature를 뽑아내고, 이를 통해 zero-shot anomaly segmentation을 수행함과 동시에 Visual Reference를 이용해 Few-normal-shot anomaly classificaion 및 segmentation을 진행하는 모습을 보이고 있었습니다. EfficientAD 방법론의 경우는 전체적인 프레임워크 구성이 충분히 이해가 되었지만, WinCLIP 같은 경우에는 처음으로 접해보는 접근법이기에 매우 신선하게 다가왔습니다. 전체적으로 발표자분의 자세한 설명 덕분에 손쉽게 이해할 수 있었습니다. 좋은 발표 정말 감사드립니다.
본 세미나에서는 EfficientAD & WinCLIP 이라는 주제의 논문에 대한 리뷰를 진행하였습니다. 두 framework 모두 Image anomaly detection을 위해 제안된 논문 입니다. 먼저 EfficientAD의 경우 모델의 크기와 Inference 속도에 큰 기여를 한 구조입니다. Knowledge distillation 으로 얻어진 Patch Description Network와 Reduced Teacher Student 구조를 이용해 기존과 유사한 성능을 보여줌과 동시에 가벼운 모델, 빠른 Inference 속도를 보여주고 있습니다. Student 와 Teacher의 Encoder로 lightweight feature extractor인 PDN을 사용하였으며, Teacher를 과하게 따라하는 것을 방지하기 위한 hard feature loss 와 loss penalty 제안하여 효율적인 구조로 높은 성능을 기록하였습니다. WInCLIP은 Vision-Langugae Model인 CLIP을 이용한 Anomaly Detection 방법론으로, 기존과는 다른 Anomaly Scoring 방식을 제안하고 있습니다. 또한 이미지로 부터 Local dense visual Feature를 추출하기 위해 Window masking 방법을 사용하고 있으며, Zero-shot으로 Anomaly Classification을 수행하고 있습니다. 연속되는 2번의 세미나를 통해 Image anomaly detection 분야에 대한 내용을 background 부터 자세하게 다루어 주셔서 훌륭한 review를 할 수 있었습니다. 좋은 발표 감사합니다!
이번 세미나는 "EfficientAD: Accurate visual anomaly detection at millisecond-level latencies."와 "Winclip: Zero-/few-shot anomaly classification and segmentation." 에 대해 2번에 걸쳐 진행되었습니다. EfficientAD는 student-teacher 구조를 갖는 것으로, lightweight feature extractor인 PDN을 사용하고, 또 loss penalty를 적용한 방법론입니다. PDN은 inference의 속도를 향상시키는 역할을 하는 네트워크이며, Efficient AD에서는 student와 teacher의 인코더에 모두 이를 적용하여 효율적인 연산이 가능했습니다. 이에 더해, 더욱 훌륭한 anomaly detection 성능을 위해 hard feature loss를 사용하였습니다. 이는 input image에 대해 teacher와 student가 각각 output을 도출하고, 둘 간이 차이를 활용하여 d_hard 보다 높은 loss에 대해서는 average를 사용하는 방법으로, 과하게 teacher와 가까워지는 것을 방지하여 student가 적당히 학습되는 효과를 가집니다. 여기에, loss penalty term이 있고, 이는 normal은 잘 학습하면서 abnormal인 것은 잘 학습하지 못하도록 하는 역할을 합니다. 그 다음으로 소개된 Winclip은 zero/few-normal shot으로 anomaly detection을 수행하는 방법론입니다. 이 방법론은 사전에 이미지에 대한 text prompt를 정의해두고, 이를 활용하여 이미지와 text prompt 사이의 유사도를 바탕으로 anomaly를 scoring한다는 특징을 갖습니다. 일반적으로는 normal에 대해 학습한 후, 이에 해당하는 지 여부로 anomaly를 판단하나, 이 방법론에서는 label이 2개로, normal과 abnormal을 각각 파악하게 됩니다. normal과 abnormal을 설명하는 각 text의 임베딩을 추출하고, 이와 image 임베딩 간의 유사도를 각각 판단한 후, 각 text의 logit을 통해 softmax 분류를 진행하는 것입니다. 추가로, Compositional Prompt Ensemble (CPE)란 text prompt에 대한 것으로, 사전에 정의된 모든 text template에 대한 임베딩 값들을 구하고, 이들의 평균을 통해 normal, abnormal 각각 하나의 최종적인 text 임베딩을 구하는 역할을 합니다. 따라서, WinCLIP은 하나의 image에 대해 각 window 마다의 embedding을 구하고, clip의 연산을 적용하여, anomaly와 normal text embedding과의 유사도를 통해 anomaly score를 도출하는 방법론이라고 정리할 수 있습니다. 각각의 논문이 상당히 많은 내용을 담고 있어 전달하기에 어려움이 있었을 것이라 생각하는데, 침착하면서도 정확한 전달력으로 세미나를 진행해주셔서 많이 이해해볼 수 있었습니다. 좋은 발표 준비해주셔서 감사드립니다.
이번 세미나는 "EfficientAD & WinCLIP"라는 주제로 진행되었습니다. 본 발표에서는 기존과는 다른 방식으로 Image Anomaly Detection 연구를 진행한 두 방법론 EfficientAD와 WinCLIP이 소개되었습니다. 개인적으로 두번째로 소개되었던 zero shot과 few shot setting에서 이상치 탐지를 수행하는 WinCLIP이 흥미로웠습니다. 본 연구에서는 특정 데이터 클래스에 국한되지 않고 여러 클래스에서 활용할 수 있지만 활발히 연구되고 있지 않은 unified model에 대한 해결책으로 zero/few shot 이상치 탐지 모델을 제안하였습니다. 이 연구에서 새로운 방식으로 이상치 탐지를 수행하고 특히 zero shot anomaly segmentation을 수행할 수 있도록 모델을 설계한 것이 인상 깊었습니다. 하지만, 해당 모델이 multimodal 모델을 활용하여 매우 복잡한 부분이 아쉬웠고 unified model의 해결책으로 제안되었지만 해당 모델과 성능을 비교하지 않은 점이 아쉬웠습니다. 그래도 산업공학도의 입장에서 새로운 방식으로 테스크를 수행한 점이 매우 흥미로웠습니다. 좋은 발표 감사합니다.
이번 세미나는 이미지 이상치 탐지(Image Anomaly Detection) 과업에 대해 소개되었습니다. 이미 해당 주제에 대해서 여러 세미나에서 다루어진 바가 있는데, 본 세미나에서는 EfficientAD와 WinCLIP이라는 방법론이 소개되었습니다. EfficientAD는 이름에서도 알 수 있다시피 효율성, 즉 연산의 효율성을 강조합니다. 기본적으로 Teach-Student 구조와 Auto Encoder 가 융합된 구조를 취하고 있습니다. 이때 Patch Description Network라 하여 입력 이미지 내 패치를 깊이를 줄인 구조의 cnn을 이용하여 특징을 추출하게 됩니다. 특히 Student-Teach 간의 loss를 구할 때 Hard Feature loss라 하여 특정 threshold 가 넘는 loss에 대해서만 고려하도록 설계한 것이 인상깊었습니다. 다음으로 소개된 WinCLIP은 Zero shot 및 Few shot 상황에서의 이상치 분류(classification), segmentation 을 진행하는 방법론 입니다. Motivation이 된 CLIP을 통해 프롬프트(prompt) 형태의 설명문과 이미지를 함께 입력하는 multimodality를 활용합니다. 그래서 설명문, Query 이미지, 정상 이미지 들의 특징들을 서로 비교 함으로써 Anomaly score map을 구하게 되고 이를 통해 픽셀 수준의 prediction 및 전체 이미지의 이상치 탐지 유무를 판단하는 과정을 거칩니다. 개인적으로는 해당 방법론의 어떤 부분이 Zero-shot classification 과업의 성능을 높이는지 답을 찾지는 못하여 아직 궁금증이 남아 있습니다. 본 세미나 시간에도 질문을 드린 것 같은데 이미지 이상치 탐지에서의 zero-shot, few-shot 은 inference 를 하고자 하는 이미지의 정상 이미지가 학습에 활용되지 않은 상태를 의미하는 것인지에 대해서도 답을 정확히 찾아보고자 합니다. 발표 준비하시느라 고생하셨습니다.
이번 세미나는 이미지 이상치탐지 관련 두 논문 Efficientad: Accurate visual anomaly detection at millisecond-level latencies와 Winclip: Zero-/few-shot anomaly classification and segmentation을 주제로 진행되었습니다. 최근 PatchCore와 같이 이미지 이상치탐지 분야의 벤치마크 데이터셋인 MVtecAD에서 100에 가까운 성능을 보이는 방법론이 발표되며, 기존과 다른 방식으로 연구를 풀어갈 필요성이 대두되었습니다. 이러한 motivation에 의해, 첫번째 논문 EfficientAD는 모델의 크기와 추론 속도에 집중하여 Knowledge distillation 기반의 patch description Network와 Reduced teacher-student 구조를 통해 모델 크기를 줄임과 동시에 빠른 추론을 가능케하였습니다. 두번째 논문 WinCLIP은 vision-language 모델 CLIP을 이상치 탐지에 적용한 사례로 anomaly score과정에서 기존 연구와 차이를 보입니다. 이미지로부터 local dense visual feature를 추출하기 위해 window masking을 도입하였으며 zero-shot으로 이상치를 분류하고 그 외 경우를 위한 few-normal-shot 방식을 함께 제안합니다. 이미지 이상치 분야의 새로운 연구 방향을 제시했다는 점에서 두 논문 모두 각각의 의의를 가지는 것 같습니다. 유익한 세미나 진행해주셔서 감사합니다.
이번 세미나는 EfficientAD & WinCLIP 두 가지 논문에 대해서 두 번에 걸쳐 진행하였습니다. 최근 이미지 이상치 탐지에 대한 다양한 연구가 수행되고 있는데 어느덧 가장 많이 활용되는 benchmark 데이터인 MVTec AD에 대한 성능이 최고점에 달해가며 성능면에서의 개선 여지가 적어지고 있는 상황입니다. 하지만 최근 또다른 MVTec LOCO나 VisA 데이터가 등장하면서 이미지 이상치 탐지에 대한 새로운 challenge가 열린듯 합니다. 세미나에서 두 가지 데이터에 대한 설명과 logical anomaly에 대한 개념을 소개해주셔서 새로운 정보를 알게되는 좋은 시간이었습니다. 추가로 이번 세미나의 목적이 이상치 탐지의 성늠 개선만이 아닌 다른 방향으로의 접근이라는 점에서 인상깊었습니다. EfficientAD는 이름과 같이 효율적인 이미지 이상치 탐지라는 측면에서 다른 모델에 비해 빠른 inference 속도를 보입니다. Knowledge distillation을 활용하여 보다 작은 모델을 사용하는 이점으로 인해 이상치 탐지에 대한 속도를 개선하였습니다. 이상치 탐지에서 어떤 경우에 추론 속도가 중요할까 고민해봤는데 공정에 많은 생산 라인이 존재할 때 그만큼 많은 데이터가 수집되므로 다양한 데이터를 처리하기 위해서는 추론 속도도 중요하겠다라는 생각이 들었습니다. 두 번째로 소개한 논문은 WinCLIP 입니다. 최근 vision language model에 대한 연구가 많이 수행되는 만큼 이미지 이상치 탐지에서도 적용할 수 있다는 좋은 사례였습니다. 특히나 language를 활용하는 측면에서 zero-shot learning에서의 우수한 성능이 인상깊었습니다. Official code가 없다는 점에서 아쉬움이 있지만 개인 연구에 도움이 되는 좋은 자료였습니다. 감사합니다.
이번 세미나에서는 EfficientAD & WinCLIP 두 방법론을 소개해 주셨습니다. 두 방법론은 모두 Image Anomaly Detection을 위한 것으로, 이전의 연구에서 이미 정복 되어버린 MVTec AD 데이터셋에서 더 나아간 MVTec LOCO, VisA 데이터셋에 대해 이상치 탐지를 수행합니다. 발표자께서 task의 상황과 이 새로운 두 데이터에 대해서 설명해 주시고 모델을 설명해 주셔서 연구의 필요성을 잘 받아들일 수 있었습니다. 최근 본인의 경우에도 빠른 inference 시간을 달성할 수 있는 이상치 탐지 모델에 대해 연구하고 있어EfficientAD에서 Knowledge distillation을 활용하여 추론 속도를 개선한 부분이 크게 와 닿았습니다. 또, WinCLIP에서 언어를 함께 활용했다는 점에서 흥미로웠습니다. 좋은 발표 감사합니다.
이번 세미나느 2차례에 걸쳐서 image AD에 관련된 2 방법론을 소개해주셨습니다. 처음 소개해주신 EfficientAD라는 방법론은 효율성 즉 빠른 inference 속도에 초점을 맞춘 방법론이었는데, knowledge distillation 기반의 reduced teacher-studnet 구조를 활용하여 모델의 크기를 줄여 연산 속도를 빠르게 함과 동시에 성능 측면에서도 우수한 모델 구조를 제안하였습니다. 두 번째 방법론인 WinCLIP는 CLIP 즉 image-language pretrained model을 활용한 이상치 탐지 방법론을 제안하였는데, 최근에 CLIP를 활용하여 down stream task에 적용하는 연구들을 많이 접하였는데 이상치 탐지에서 적용되는 연구는 처음 접하게 되어 매우 흥미로웠습니다. CLIP를 활용하여 이미지 이상치 탐지에서 zero-shot으로도 높은 성능이 달성되는 점은 개인적으로 놀라웠습니다. 좋은 발표 감사합니다.