Industrial Anomaly Detection에서 MLLM을 위한 최초의 평가 벤치마크
산업 영역에서 MLLM 적용의 격차를 메우고 그 역량에 대한 새로운 Task 제시
Industrial Image Anomaly Detection 데이터셋의 Semantic한 Annotation을 생성
Industrial Anomaly Detection 데이터셋에서 MLLM을 직접 평가할 수 없다는 문제 해결
MMAD에 대한 대표적인 MLLM의 성능을 종합적으로 평가
현재 MLLM의 약점을 언급하며, 확장 방안을 제시
3. 발표자료 및 발표영상
발표자료 : 하단 첨부
발표영상 :
전체 18
Junyeong Son
2025-03-06 13:53
이번 세미나는 산업 이상치 탐지 분야에서 Multimodal LLM을 사용하는 경우, 이에 대한 정량적인 결과를 위한 새로운 벤치마크 MMAD를 제안한 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection”라는 논문에 대한 발표를 중심으로 진행되었습니다. 최근 놀라운 성능을 보여주고 있는 다양한 MLLM을 이상치 탐지 분야에서 사용하는 경우에, 기존 이상치 탐지 모델과 비교해 차별점은 정상인지 아닌지, 어디가 비정상인지를 판단하는 것에 더해 이상치에 대한 부가 설명 등 추가적인 정보를 제공할 수 있다는 점이라고 생각합니다. 그런 의미에서 기존 벤치마크만을 가지고 MLLM의 이상치 탐지 성능을 평가하는 것은 MLLM이 가지고 있는 능력을 충분히 반영하지 못한다는 점에서 해당 연구의 필요성에 공감할 수 있었습니다. MMAD의 구축 방법에서 인상깊었던 점은 텍스트를 생성해내는 MLLM의 결과를 정량적으로 판단하는 객관식 형태로 구성한다는 점이었습니다. 처음 산업 이상치 탐지에 대한 설명을 할 떄부터 도메인 지식의 필요성을 계속 언급을 하는데, 해당 벤치마크를 구성하는 단계에서 실제 산업에 대한 좀 더 구체적인 도메인 지식을 모델에 반영하지는 못했다는 느낌이 들었지만 그래도 좋은 목적을 가진 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
Hankyeol Kim
2025-03-07 12:29
MLLM을 이용한 이상치 탐지는 이상치 판정과 관련한 다양한 정보를 자연어로 제공하는 데에 차별점 및 장점이 있기에, 기존 방법론들의 평가를 위한 벤치마크들은 성능 평가의 정확성 이전에 방식 자체가 부적합함에 공감되었습니다. 일반적이고 합리적인 subtask들을 세분화함으로써 다양한 분야에의 적용 가능성을 확보하였기에 벤치마크로서의 조건을 어느 정도 갖추었다는 인상을 받았습니다. 다만 산업 이상치 탐지를 주제로 하는 만큼, domain-specific한 지식과 데이터를 다루어야 하는 시나리오를 가정하고 있기에 보다 practical한 응용 사례가 앞으로의 연구에서 제시되어 유의미한 벤치마크임이 증명되기를 기대하게 됩니다.
Jaewon Cheon
2025-03-07 12:35
이번 세미나에서는 MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection와 관련된 방법론을 제시한 논문을 중심으로 진행되었습니다. 기존의 Multimodal Large Language Models(MLLM)은 주로 일반적인 비전-언어 태스크에서 성능을 평가받아왔으며, 산업 이상 탐지(Industrial Anomaly Detection) 분야에서는 체계적인 벤치마크가 부족한 실정이었습니다. 본 연구에서는 이러한 한계를 해결하기 위해 MMAD 벤치마크를 구축하였으며, 4개의 대표적인 산업 데이터셋에서 7가지 세부 과업과 38가지 이상 탐지 카테고리를 포함하여 총 39,672개의 평가 샘플을 제공하는 포괄적인 평가 프레임워크를 제안하였습니다. 실험에서는 GPT-4o, Gemini-1.5, InternVL2 등 상업용 및 오픈소스 MLLM들을 대상으로 성능을 비교하였으며, 일반적인 MLLM 성능이 높을수록 산업 이상 탐지에서도 좋은 성능을 보이는 경향이 나타났습니다. 추가적으로 Retrieval-Augmented Generation(RAG) 및 Expert Agent 기반 접근 방식을 적용하여 산업 도메인 지식을 보완하는 방안을 탐색하였고, 특히 Expert 모델을 활용한 Agent 접근법이 이상 탐지 성능을 개선하는 데 기여하는 것을 확인하였습니다. 다만, 데이터셋 구축 과정에서 일부 질문 유형의 다양성이 부족하다는 점과, 정제된 데이터의 구체적인 기준이 명확하지 않은 점이 향후 개선될 필요가 있음을 지적하였습니다. 이번 발표를 통해 산업 현장에서 MLLM의 적용 가능성을 높이기 위한 새로운 평가 프레임워크의 중요성을 확인할 수 있었습니다.
Minjeong Ma
2025-03-08 15:39
이번 세미나에서는 MLLM을 산업 이상치 탐지 분야에 적용하고 평가할 수 있는 최초의 포괄적인 벤치마크를 구축한 ‘MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection’ 논문에 대하여 발표해 주셨습니다. 해당 논문은 기존의 산업 이상치 탐지 모델들이 비정상 패턴을 탐지하는 데 집중했던 것과 달리, MLLM이 실제 품질 검사관과 유사한 역할을 수행할 수 있도록 Anomaly Detection, Defect Classification, Localization 등의 다양한 Task를 포함하여 현실적인 평가 프레임워크를 설계했습니다. 또한, 기존 MLLM 벤치마크들이 산업 도메인을 고려하지 않았던 한계를 지적하고, 새로운 데이터셋을 구축해 산업 현장에 적용할 수 있도록 하였습니다. 데이터 수집 과정에서는 기존 Industrial AD 데이터셋을 활용하면서도, MLLM의 평가를 위해 추가적인 의미적Semantic Annotation을 생성했다는 점이 인상깊었습니다. 이를 통해, 최신 MLLM 모델들이 인간 전문가보다는 낮은 성능을 보였지만, 특정 모델(GPT-4o)이 일반 사용자보다 우수한 성능을 기록했다는 점이 흥미로웠습니다. 다만, 생성된 데이터의 정제 과정과 질문 다양성에 대한 보완이 필요하며, Subtask별 데이터 구성 방식이 실제 산업 환경에서 충분한 현실성을 반영하는지에 대한 추가 연구가 필요할 것 같다고 생각했습니다. 아직 부족한 점이 있는 연구이지만 MLLM이 산업 도메인에서 어떻게 활용될 수 있는지를 탐색하는 시초의 연구로서 의미 있는 연구라고 생각합니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.
Jaehyuk Heo
2025-03-10 14:54
이번 세미나는 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 논문에 대해 소개해주셨습니다. 해당 연구에서는 기존 이미지 이상치 탐지 연구에 사용되는 이미지 벤치마크 데이터를 활용하여 실제 제품 불량 조사와 관련된 질문과 답변을 이미지에 맞추어 생성한 새로운 데이터셋을 제안합니다. 해당 데이터는 최근 많이 공개되고 있는 multi-modal large language model (MLLM)이 이러한 산업 데이터에 적절한 질의응답이 가능한지 또는 이상 여부를 잘 판단할 수 있는지 객관식 문제를 통해 평가하였습니다. 본 연구는 이러한 MLLM의 역량을 다른 산업 또는 도메인 데이터에 어떻게 평가하면 좋을지에 대한 새로운 기준을 제시하였다는 점에서 인상이 깊었고 앞으로 더 현실적이고 구체적인 후속 연구 (새로운 벤치마크)가 생길거라는 생각에 기대가 됩니다. 좋은 발표 감사합니다.
Jinwoo Park
2025-03-10 16:31
금일 세미나는 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 기반으로 진행되었습니다. 본 연구에서는 산업 현장에서 발생하는 데이터를 활용하여 공정 및 제품의 정상 여부를 판단하는 Industrial Anomaly Detection 과업을 위한 Multi-modal 데이터셋을 제안합니다. 이를 위해, 다양한 상품과 고장 유형에 대한 품질 검사를 수행할 수 있도록 4개의 대표적인 산업 데이터셋에서 데이터를 수집하였으며, 총 38개 상품과 244개 고장 유형을 포함하고 있습니다. 또한, 제안 연구에서는 우수한 품질 검사관이라면 생산 라인에서 어떤 항목을 평가해야 하는가라는 관점에서 7가지 주요 Subtask를 선정하였습니다. 데이터 생성 과정에서는 Semantic Annotation을 위한 Prompting 및 Filtering 과정을 거쳐 보다 정교한 데이터셋을 구축하고 있습니다. 해당 연구는 Industrial Anomaly Detection에서 Multimodal Large Language Model을 위한 최초의 평가 벤치마크라는 점에서 중요한 의미를 가지며, 향후 더 다양한 Task로 확장될 가능성을 제안하기에 큰 가치가 있다고 생각합니다. 좋은 논문을 소개해주셔서 정말 감사드립니다.
Woongchan Nam
2025-03-10 20:54
이번 세미나는 산업 이상치 탐지 분야에 MLLM의 성능을 평가하기 위한 새로운 벤치마크를 제안한 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 중심으로 진행되었습니다. 기존 이상치 탐지 벤치마크가 단순히 비정상 여부나 위치를 판단하는 데 초점을 맞췄던 반면, 본 연구에서는 MLLM의 자연어 생성 능력을 활용하여 보다 구체적이고 설명 가능한 이상 탐지 과정을 평가할 수 있도록 다각적인 Subtask를 구성한 점이 인상 깊었습니다. 특히, 산업 현장에서 요구되는 실제 품질 검사자의 역할을 모방하기 위해 Anomaly Detection뿐만 아니라 Defect Classification, Localization 등 여러 현실적인 태스크를 객관식 형태로 체계화하여 정량적으로 평가 가능하게 설계했다는 점에서 의미 있는 연구라고 생각합니다. 다만, 산업 도메인의 특수한 지식이 벤치마크 데이터의 생성 과정에서 충분히 반영되었는지에 대해서는 추가적인 고민이 필요할 것 같습니다. 앞으로 MLLM의 현실적인 적용 가능성을 보다 명확히 검증할 수 있는 추가적인 실험과 사례 연구가 이어지기를 기대합니다. 흥미로운 주제와 좋은 발표 감사합니다.
Doyoon Kim
2025-03-12 16:39
이번 세미나는 multimodal anomaly detection을 주제로 진행되었습니다. 소개해주신 연구는 기존의 이미지 이상치 탐지 데이터셋으로부터 획득한 데이터들을 이용해서 기존의 과업인 이상치 탐지를 비롯한 이상치 탐지 관련 Image Question Answering을 진행할 수 있는 데이터셋으로 재구성하는 과정을 보여주었습니다. 이상치 탐지 관련 다양한 multimodal 과업을 수행할 수 있는 점은 굉장히 높은 효용성을 지니는 것 같습니다. 해당 데이터셋으로 이제 다양한 방법론들이 발전될 수 있지 않을까 생각이 듭니다. 꼭 한 번 활용해봐야겠습니다. 좋은 발표 감사합니다.
SangMin Lee
2025-03-13 09:28
이번 세미나는 산업 현장에서 Multimodal LLM(MLLM)의 이상 탐지 성능을 평가하기 위한 새로운 벤치마크인 MMAD를 제안한 논문을 중심으로 진행되었습니다. 기존 이상 탐지 벤치마크가 MLLM의 강점인 이상치에 대한 자연어 설명 능력을 충분히 반영하지 못한 문제를 해결하기 위해 산업 이미지 데이터에 Semantic Annotation을 추가한 객관식 평가 방법을 제안했다는 점이 인상적이었으며, 향후 보다 구체적인 산업 도메인 지식이 반영된 벤치마크로 발전한다면 더욱 실무적으로 유용한 평가 지표가 될 것으로 기대됩니다.
Jihun Nam
2025-03-14 14:35
멀티모달 LLM을 연구하기 위해 여러 벤치마크를 활용하고 있으나 실제 산업 특성에 맞는 벤치마크가 없었다는 점을 지적하며 본 연구가 진행되었습니다. 산업 현장에서 좋은 평가지표가 되기 위해서는 고장 식별 뿐만 아니라 고장 유형 및 심각도 분류, 원인 분석등이 이루어 져야 합니다. 금일 세미나에서 언급하고 있는 MMAD 방식은 이러한 부분을 고려하기 위해 새로운 접근 방식을 제시하고 있습니다. 판별 task를 7가지를 선정하고 semantic annotation 이라는 도메인 정보를 더하여 주는 방식의 답변 생성 파이프라인을 추가하고 있습니다. 산업 도메인 멀티모달 LLM 연구를 위한 실용적인 벤치마크를 처음으로 제시했다는 부분에서 많은 기여점이 있을 것 같고 앞으로도 이러한 연구가 계속 진행되어 퀄리티 높은 산업 벤치마크가 연구되길 기대합니다. 좋은 발표 감사합니다.
Subeen Cha
2025-03-15 18:46
오늘 세미나에서는 산업 이상 탐지(Industrial Anomaly Detection)에서 MLLM(멀티모달 대형 언어 모델)을 평가하기 위한 최초의 벤치마크인 MMAD가 소개되었습니다. 현재 MLLM이 산업 분야에서 어느 정도 성능을 발휘할 수 있는지를 탐색하였는데, 기존의 산업 데이터셋이 MLLM을 직접 평가하기 어렵다는 한계를 극복하기 위해 새로운 태스크와 어노테이션 방식을 제시했다는 점이 흥미로웠습니다.
또한, 최신 모델(GPT-4o 등)이 높은 성능을 보이지만 여전히 산업 현장에서 활용하기에는 부족한 부분이 많다는 점도 주목할 만한 부분이였습니다. 해당 연구가 단순한 성능 비교에서 그치는 것이 아닌, MLLM이 산업 영역에서 실질적으로 유용해지기 위해 어떤 개선이 필요한지를 고민했다는 점에서 의미가 크다고 느꼈습니다. 세미나 준비하시느라 수고 많으셨습니다!!
Kiyoon Jeong
2025-03-15 18:54
이번 세미나는 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 논문을 중심으로 진행되었습니다. 기존의 산업 이상치 탐지 벤치마크가 MLLM의 자연어 기반 분석 능력을 반영하지 못하는 한계를 보완하고자, 본 연구에서는 새로운 평가 프레임워크를 제안하였습니다. 특히, 이상 탐지, 결함 분류, 결함 위치 식별 등 7가지 세부 과업을 구성하여 보다 정교한 성능 평가가 가능하도록 설계한 점이 인상적이었습니다. 또한, 객관식 형태의 평가 방식을 도입하여 생성된 응답의 정량적 비교가 용이하다는 점도 강점으로 보였습니다. 다만, 산업 도메인의 특수성을 충분히 반영하기 위해 도메인 지식 기반의 어노테이션 방식이 추가적으로 보완될 필요가 있다고 느껴졌습니다. MLLM의 실제 산업 적용 가능성을 탐색하는 중요한 시도라는 점에서 의미 있는 연구라고 생각되며, 향후 더욱 발전된 벤치마크로 확장되기를 기대합니다. 좋은 발표 감사합니다!
Jaehee Kim
2025-03-16 20:35
금일 세미나는 Industrial Anomaly Detection 분야에서 Vision Language Model에 대한 통합적인 벤치마크를 제시한 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection"를 중심으로 진행되었습니다. 기존에도 Image AD 태스크나 MLLM에 대한 벤치마크는 존재하였으나, 다수의 정상 이미지와 instruction을 함께 입력으로 하여 Anomaly Detection을 수행하는 벤치마크가 부재하다는 한계점이 존재하였습니다. 이에 해당 논문에서는 기존에 활발히 활용되던 Image AD 데이터셋 등을 이용하여 7가지의 subtask에 대한 Instruction과 답변 후보를 제시합니다. 이러한 평가 방식은 MMLU 이후 매우 많은 LLM 벤치마크 논문들에서 활용되는 평가 방식으로 성능의 신뢰성이 높다는 장점이 존재합니다. 실제로 다양한 Vision Language Model에 대한 결과물을 살펴보면, 1) 모델의 크기가 클수록 2) 텍스트를 이용하여 정상/비정상 정보를 입력할수록 성능이 개선되는 모습을 보여주고 있습니다. 다만 다양한 이미지에 대해 비교하도록 학습한 모델이나 expert 모델을 통한 시각화 입력을 제공하는 경우에는 기대와 달리 성능이 오르지 못하는 모습을 보이고 있습니다. 이는 이러한 방법론의 효과가 없다기 보다는, 매우 급격하게 성능이 개선되는 vision language model의 특성에 기인하는 것으로 보입니다. 일반적인 MLLM과 다르게 산업용 AD를 위한 MLLM이 가져야 하는 능력에 대해 잘 서술한 논문이라는 인상을 받을 수 있었습니다. 좋은 발표 감사합니다.
Hyeongwon Kang
2025-03-17 19:17
이번 세미나에서는 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 기반으로, 산업 이상 탐지(Industrial Anomaly Detection, IAD) 분야에서 MLLM의 성능을 평가하는 최초의 벤치마크 구축에 대한 연구를 다루었습니다. 기존 MLLM 평가가 일반적인 비전-언어 태스크에 집중된 반면, 본 연구는 Anomaly Detection, Defect Classification, Localization 등 산업 현장에서 중요한 과업을 포함하는 현실적인 평가 프레임워크를 설계했습니다. 특히, 4개의 대표적인 산업 데이터셋에서 7개 세부 과업, 38개 이상 탐지 카테고리를 포함한 총 39,672개 평가 샘플을 구축하여, 다양한 이상 탐지 시나리오에서 MLLM의 성능을 비교할 수 있도록 하였습니다. 실험 결과, GPT-4o 등의 상업용 모델이 일반 사용자보다 우수한 성능을 보였으나, 여전히 인간 전문가보다 낮은 성능을 기록하였으며, Expert Agent 기반 접근법이 성능 개선에 효과적임을 확인하였습니다. 다만, 질문 유형의 다양성 부족과 데이터 정제 기준의 모호성은 향후 개선이 필요한 부분으로 지적되었습니다. 이번 연구는 산업 도메인에서 MLLM의 적용 가능성을 탐색하는 시초의 연구로서 의미 있는 기여를 하였으며, 향후 RAG 및 도메인 특화 모델을 활용한 추가 연구가 기대됩니다. 좋은 발표 감사합니다!
Woojun Lee
2025-03-18 10:22
이번 세미나에서는 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 소개해주셨습니다. 기존 Multimodal Large Language Models(MLLM)이 일반적인 비전-언어 태스크 위주로 평가되던 한계를 넘어, 산업 현장에서의 이상 탐지(Industrial Anomaly Detection)를 위한 체계적인 평가 벤치마크인 MMAD를 제안한 점이 특히 흥미로웠습니다. MMAD는 4가지 대표적인 산업 데이터셋에서 총 38개 제품 및 244가지 고장 유형을 포함하여 7가지 세부 과업과 39,672개의 평가 샘플로 구성된 포괄적인 평가 프레임워크를 구축하였으며, Semantic Annotation을 위한 Prompting과 Filtering 과정을 통해 정교한 데이터 품질을 확보하였습니다. 실험에서는 GPT-4o, Gemini-1.5, InternVL2와 같은 대표적인 상업용 및 오픈소스 MLLM을 대상으로 성능을 비교했으며, Retrieval-Augmented Generation(RAG) 및 Expert Agent 기반 접근법을 적용하여 산업 도메인의 전문 지식을 모델에 보완하는 방법이 성능 향상에 효과적임을 확인했습니다. 비록 데이터셋 구축 과정에서 질문 유형의 다양성 부족과 데이터 정제 기준의 모호함이 향후 개선 과제로 지적되었지만, 산업 현장에서 MLLM을 활용한 이상 탐지 연구의 첫 번째 포괄적인 평가 프레임워크로서 의미 있는 연구였습니다. 좋은 발표 감사합니다.
Suyeon Shin
2025-03-19 10:14
이번 세미나에서는 MLLM을 활용한 산업 이상 탐지(Industrial Anomaly Detection) 연구를 평가하기 위한 새로운 벤치마크 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection”를 제안한 논문을 소개해주셨습니다. MLLM을 활용하여 단순한 탐지를 넘어 이상 발생 원인 설명 및 추가 정보 제공이 가능하다는 점과, 기존의 이상 탐지 벤치마크로는 MLLM의 능력을 온전히 평가할 수 없다는 문제의식을 바탕으로 MMAD가 설계되었다는 점이 인상 깊었습니다.
또 실험 결과에서 GPT-4o와 같은 최신 MLLM들이 특정 영역에서 일반 사용자보다 높은 성능을 보였다는 점이 흥미로웠습니다. 하지만, 전문지식을 가진 사람들보다는 아직 성능이 낮았다는 점은 산업 환경에서 실질적인 도입이 이루어지려면 추가적인 개선이 필요하다는 것을 의미하는 것 같습니다.
MMAD는 산업 도메인에서 MLLM을 평가할 수 있는 새로운 기준을 제시했다는 점에서 의미 있는 연구였습니다. 산업 현장에서 MLLM을 활용한 실질적인 이상 탐지가 이루어질 수 있는 연구의 시작점이라고 생각이 듭니다. 좋은 발표 감사합니다.
Sieon Park
2025-03-19 23:45
이번 세미나에서 소개해주신 논문은 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 으로 Industrial Anomaly Detection 분야에서 Multimodal LLM의 정량적인 결과를 비교할 수 있는 포괄적인 벤치마크입니다. MLM이 산업현장의 품질 검사관을 대체하기 위해 어떤 능력이 필요할지 7가지 subtask를 선정하였고 이는 현실 상황을 고려하여 실질적으로 적용 가능한 평가 항목을 제공하고 있다는 점에서 인상깊었습니다. 한편으로는 산업 도메인 외의 상황에서의 이미지와 문항도 포함되면서 개별 task에 맞는 일반화된 성능향상을 기대하고 있다는 점에서도 인상깊었습니다. 해당 논문을 시작으로 산업 이상치 탐지 분야에서 MLLM의 활용한 연구가 진행될 수 있는 최초의 평가 벤치마크를 제공했다는 점에서 의미 있는 연구라고 생각합니다. 좋은 발표 감사합니다.
Hun Im
2025-03-19 13:02
이번 세미나에서는 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 논문이 소개되었습니다. 이 연구는 산업 환경에서의 이상 탐지를 위한 다중모달 대형 언어 모델(MLLMs)의 성능을 평가하기 위해 MMAD라는 새로운 벤치마크를 제안했습니다. 기존의 이상 탐지 방법들이 특정 데이터셋에 한정되거나 단일 모달 데이터를 활용하는 경우가 많았던 반면, 본 논문은 다양한 산업 이미지를 포함하는 대규모 벤치마크를 구축하여, MLLMs의 실제 환경에서의 활용 가능성을 종합적으로 분석했다는 점에서 의미 있는 기여를 했다고 생각됩니다. 이 논문은 MLLMs의 이상 탐지 능력을 체계적으로 평가한 첫 번째 연구로, 향후 모델 성능을 개선하고 실용성을 높이기 위한 중요한 기준점을 제공한다는 점에서 의의가 큽니다. 향후 다양한 산업 도메인에 특화된 데이터 학습과 모델 최적화 연구가 병행된다면, MLLMs의 활용 가능성이 더욱 확대될 것으로 기대됩니다. 좋은 발표 감사합니다!
이번 세미나는 산업 이상치 탐지 분야에서 Multimodal LLM을 사용하는 경우, 이에 대한 정량적인 결과를 위한 새로운 벤치마크 MMAD를 제안한 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection”라는 논문에 대한 발표를 중심으로 진행되었습니다. 최근 놀라운 성능을 보여주고 있는 다양한 MLLM을 이상치 탐지 분야에서 사용하는 경우에, 기존 이상치 탐지 모델과 비교해 차별점은 정상인지 아닌지, 어디가 비정상인지를 판단하는 것에 더해 이상치에 대한 부가 설명 등 추가적인 정보를 제공할 수 있다는 점이라고 생각합니다. 그런 의미에서 기존 벤치마크만을 가지고 MLLM의 이상치 탐지 성능을 평가하는 것은 MLLM이 가지고 있는 능력을 충분히 반영하지 못한다는 점에서 해당 연구의 필요성에 공감할 수 있었습니다. MMAD의 구축 방법에서 인상깊었던 점은 텍스트를 생성해내는 MLLM의 결과를 정량적으로 판단하는 객관식 형태로 구성한다는 점이었습니다. 처음 산업 이상치 탐지에 대한 설명을 할 떄부터 도메인 지식의 필요성을 계속 언급을 하는데, 해당 벤치마크를 구성하는 단계에서 실제 산업에 대한 좀 더 구체적인 도메인 지식을 모델에 반영하지는 못했다는 느낌이 들었지만 그래도 좋은 목적을 가진 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
MLLM을 이용한 이상치 탐지는 이상치 판정과 관련한 다양한 정보를 자연어로 제공하는 데에 차별점 및 장점이 있기에, 기존 방법론들의 평가를 위한 벤치마크들은 성능 평가의 정확성 이전에 방식 자체가 부적합함에 공감되었습니다. 일반적이고 합리적인 subtask들을 세분화함으로써 다양한 분야에의 적용 가능성을 확보하였기에 벤치마크로서의 조건을 어느 정도 갖추었다는 인상을 받았습니다. 다만 산업 이상치 탐지를 주제로 하는 만큼, domain-specific한 지식과 데이터를 다루어야 하는 시나리오를 가정하고 있기에 보다 practical한 응용 사례가 앞으로의 연구에서 제시되어 유의미한 벤치마크임이 증명되기를 기대하게 됩니다.
이번 세미나에서는 MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection와 관련된 방법론을 제시한 논문을 중심으로 진행되었습니다. 기존의 Multimodal Large Language Models(MLLM)은 주로 일반적인 비전-언어 태스크에서 성능을 평가받아왔으며, 산업 이상 탐지(Industrial Anomaly Detection) 분야에서는 체계적인 벤치마크가 부족한 실정이었습니다. 본 연구에서는 이러한 한계를 해결하기 위해 MMAD 벤치마크를 구축하였으며, 4개의 대표적인 산업 데이터셋에서 7가지 세부 과업과 38가지 이상 탐지 카테고리를 포함하여 총 39,672개의 평가 샘플을 제공하는 포괄적인 평가 프레임워크를 제안하였습니다. 실험에서는 GPT-4o, Gemini-1.5, InternVL2 등 상업용 및 오픈소스 MLLM들을 대상으로 성능을 비교하였으며, 일반적인 MLLM 성능이 높을수록 산업 이상 탐지에서도 좋은 성능을 보이는 경향이 나타났습니다. 추가적으로 Retrieval-Augmented Generation(RAG) 및 Expert Agent 기반 접근 방식을 적용하여 산업 도메인 지식을 보완하는 방안을 탐색하였고, 특히 Expert 모델을 활용한 Agent 접근법이 이상 탐지 성능을 개선하는 데 기여하는 것을 확인하였습니다. 다만, 데이터셋 구축 과정에서 일부 질문 유형의 다양성이 부족하다는 점과, 정제된 데이터의 구체적인 기준이 명확하지 않은 점이 향후 개선될 필요가 있음을 지적하였습니다. 이번 발표를 통해 산업 현장에서 MLLM의 적용 가능성을 높이기 위한 새로운 평가 프레임워크의 중요성을 확인할 수 있었습니다.
이번 세미나에서는 MLLM을 산업 이상치 탐지 분야에 적용하고 평가할 수 있는 최초의 포괄적인 벤치마크를 구축한 ‘MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection’ 논문에 대하여 발표해 주셨습니다. 해당 논문은 기존의 산업 이상치 탐지 모델들이 비정상 패턴을 탐지하는 데 집중했던 것과 달리, MLLM이 실제 품질 검사관과 유사한 역할을 수행할 수 있도록 Anomaly Detection, Defect Classification, Localization 등의 다양한 Task를 포함하여 현실적인 평가 프레임워크를 설계했습니다. 또한, 기존 MLLM 벤치마크들이 산업 도메인을 고려하지 않았던 한계를 지적하고, 새로운 데이터셋을 구축해 산업 현장에 적용할 수 있도록 하였습니다. 데이터 수집 과정에서는 기존 Industrial AD 데이터셋을 활용하면서도, MLLM의 평가를 위해 추가적인 의미적Semantic Annotation을 생성했다는 점이 인상깊었습니다. 이를 통해, 최신 MLLM 모델들이 인간 전문가보다는 낮은 성능을 보였지만, 특정 모델(GPT-4o)이 일반 사용자보다 우수한 성능을 기록했다는 점이 흥미로웠습니다. 다만, 생성된 데이터의 정제 과정과 질문 다양성에 대한 보완이 필요하며, Subtask별 데이터 구성 방식이 실제 산업 환경에서 충분한 현실성을 반영하는지에 대한 추가 연구가 필요할 것 같다고 생각했습니다. 아직 부족한 점이 있는 연구이지만 MLLM이 산업 도메인에서 어떻게 활용될 수 있는지를 탐색하는 시초의 연구로서 의미 있는 연구라고 생각합니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.
이번 세미나는 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 논문에 대해 소개해주셨습니다. 해당 연구에서는 기존 이미지 이상치 탐지 연구에 사용되는 이미지 벤치마크 데이터를 활용하여 실제 제품 불량 조사와 관련된 질문과 답변을 이미지에 맞추어 생성한 새로운 데이터셋을 제안합니다. 해당 데이터는 최근 많이 공개되고 있는 multi-modal large language model (MLLM)이 이러한 산업 데이터에 적절한 질의응답이 가능한지 또는 이상 여부를 잘 판단할 수 있는지 객관식 문제를 통해 평가하였습니다. 본 연구는 이러한 MLLM의 역량을 다른 산업 또는 도메인 데이터에 어떻게 평가하면 좋을지에 대한 새로운 기준을 제시하였다는 점에서 인상이 깊었고 앞으로 더 현실적이고 구체적인 후속 연구 (새로운 벤치마크)가 생길거라는 생각에 기대가 됩니다. 좋은 발표 감사합니다.
금일 세미나는 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 기반으로 진행되었습니다. 본 연구에서는 산업 현장에서 발생하는 데이터를 활용하여 공정 및 제품의 정상 여부를 판단하는 Industrial Anomaly Detection 과업을 위한 Multi-modal 데이터셋을 제안합니다. 이를 위해, 다양한 상품과 고장 유형에 대한 품질 검사를 수행할 수 있도록 4개의 대표적인 산업 데이터셋에서 데이터를 수집하였으며, 총 38개 상품과 244개 고장 유형을 포함하고 있습니다. 또한, 제안 연구에서는 우수한 품질 검사관이라면 생산 라인에서 어떤 항목을 평가해야 하는가라는 관점에서 7가지 주요 Subtask를 선정하였습니다. 데이터 생성 과정에서는 Semantic Annotation을 위한 Prompting 및 Filtering 과정을 거쳐 보다 정교한 데이터셋을 구축하고 있습니다. 해당 연구는 Industrial Anomaly Detection에서 Multimodal Large Language Model을 위한 최초의 평가 벤치마크라는 점에서 중요한 의미를 가지며, 향후 더 다양한 Task로 확장될 가능성을 제안하기에 큰 가치가 있다고 생각합니다. 좋은 논문을 소개해주셔서 정말 감사드립니다.
이번 세미나는 산업 이상치 탐지 분야에 MLLM의 성능을 평가하기 위한 새로운 벤치마크를 제안한 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 중심으로 진행되었습니다. 기존 이상치 탐지 벤치마크가 단순히 비정상 여부나 위치를 판단하는 데 초점을 맞췄던 반면, 본 연구에서는 MLLM의 자연어 생성 능력을 활용하여 보다 구체적이고 설명 가능한 이상 탐지 과정을 평가할 수 있도록 다각적인 Subtask를 구성한 점이 인상 깊었습니다. 특히, 산업 현장에서 요구되는 실제 품질 검사자의 역할을 모방하기 위해 Anomaly Detection뿐만 아니라 Defect Classification, Localization 등 여러 현실적인 태스크를 객관식 형태로 체계화하여 정량적으로 평가 가능하게 설계했다는 점에서 의미 있는 연구라고 생각합니다. 다만, 산업 도메인의 특수한 지식이 벤치마크 데이터의 생성 과정에서 충분히 반영되었는지에 대해서는 추가적인 고민이 필요할 것 같습니다. 앞으로 MLLM의 현실적인 적용 가능성을 보다 명확히 검증할 수 있는 추가적인 실험과 사례 연구가 이어지기를 기대합니다. 흥미로운 주제와 좋은 발표 감사합니다.
이번 세미나는 multimodal anomaly detection을 주제로 진행되었습니다. 소개해주신 연구는 기존의 이미지 이상치 탐지 데이터셋으로부터 획득한 데이터들을 이용해서 기존의 과업인 이상치 탐지를 비롯한 이상치 탐지 관련 Image Question Answering을 진행할 수 있는 데이터셋으로 재구성하는 과정을 보여주었습니다. 이상치 탐지 관련 다양한 multimodal 과업을 수행할 수 있는 점은 굉장히 높은 효용성을 지니는 것 같습니다. 해당 데이터셋으로 이제 다양한 방법론들이 발전될 수 있지 않을까 생각이 듭니다. 꼭 한 번 활용해봐야겠습니다. 좋은 발표 감사합니다.
이번 세미나는 산업 현장에서 Multimodal LLM(MLLM)의 이상 탐지 성능을 평가하기 위한 새로운 벤치마크인 MMAD를 제안한 논문을 중심으로 진행되었습니다. 기존 이상 탐지 벤치마크가 MLLM의 강점인 이상치에 대한 자연어 설명 능력을 충분히 반영하지 못한 문제를 해결하기 위해 산업 이미지 데이터에 Semantic Annotation을 추가한 객관식 평가 방법을 제안했다는 점이 인상적이었으며, 향후 보다 구체적인 산업 도메인 지식이 반영된 벤치마크로 발전한다면 더욱 실무적으로 유용한 평가 지표가 될 것으로 기대됩니다.
멀티모달 LLM을 연구하기 위해 여러 벤치마크를 활용하고 있으나 실제 산업 특성에 맞는 벤치마크가 없었다는 점을 지적하며 본 연구가 진행되었습니다. 산업 현장에서 좋은 평가지표가 되기 위해서는 고장 식별 뿐만 아니라 고장 유형 및 심각도 분류, 원인 분석등이 이루어 져야 합니다. 금일 세미나에서 언급하고 있는 MMAD 방식은 이러한 부분을 고려하기 위해 새로운 접근 방식을 제시하고 있습니다. 판별 task를 7가지를 선정하고 semantic annotation 이라는 도메인 정보를 더하여 주는 방식의 답변 생성 파이프라인을 추가하고 있습니다. 산업 도메인 멀티모달 LLM 연구를 위한 실용적인 벤치마크를 처음으로 제시했다는 부분에서 많은 기여점이 있을 것 같고 앞으로도 이러한 연구가 계속 진행되어 퀄리티 높은 산업 벤치마크가 연구되길 기대합니다. 좋은 발표 감사합니다.
오늘 세미나에서는 산업 이상 탐지(Industrial Anomaly Detection)에서 MLLM(멀티모달 대형 언어 모델)을 평가하기 위한 최초의 벤치마크인 MMAD가 소개되었습니다. 현재 MLLM이 산업 분야에서 어느 정도 성능을 발휘할 수 있는지를 탐색하였는데, 기존의 산업 데이터셋이 MLLM을 직접 평가하기 어렵다는 한계를 극복하기 위해 새로운 태스크와 어노테이션 방식을 제시했다는 점이 흥미로웠습니다.
또한, 최신 모델(GPT-4o 등)이 높은 성능을 보이지만 여전히 산업 현장에서 활용하기에는 부족한 부분이 많다는 점도 주목할 만한 부분이였습니다. 해당 연구가 단순한 성능 비교에서 그치는 것이 아닌, MLLM이 산업 영역에서 실질적으로 유용해지기 위해 어떤 개선이 필요한지를 고민했다는 점에서 의미가 크다고 느꼈습니다. 세미나 준비하시느라 수고 많으셨습니다!!
이번 세미나는 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 논문을 중심으로 진행되었습니다. 기존의 산업 이상치 탐지 벤치마크가 MLLM의 자연어 기반 분석 능력을 반영하지 못하는 한계를 보완하고자, 본 연구에서는 새로운 평가 프레임워크를 제안하였습니다. 특히, 이상 탐지, 결함 분류, 결함 위치 식별 등 7가지 세부 과업을 구성하여 보다 정교한 성능 평가가 가능하도록 설계한 점이 인상적이었습니다. 또한, 객관식 형태의 평가 방식을 도입하여 생성된 응답의 정량적 비교가 용이하다는 점도 강점으로 보였습니다. 다만, 산업 도메인의 특수성을 충분히 반영하기 위해 도메인 지식 기반의 어노테이션 방식이 추가적으로 보완될 필요가 있다고 느껴졌습니다. MLLM의 실제 산업 적용 가능성을 탐색하는 중요한 시도라는 점에서 의미 있는 연구라고 생각되며, 향후 더욱 발전된 벤치마크로 확장되기를 기대합니다. 좋은 발표 감사합니다!
금일 세미나는 Industrial Anomaly Detection 분야에서 Vision Language Model에 대한 통합적인 벤치마크를 제시한 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection"를 중심으로 진행되었습니다. 기존에도 Image AD 태스크나 MLLM에 대한 벤치마크는 존재하였으나, 다수의 정상 이미지와 instruction을 함께 입력으로 하여 Anomaly Detection을 수행하는 벤치마크가 부재하다는 한계점이 존재하였습니다. 이에 해당 논문에서는 기존에 활발히 활용되던 Image AD 데이터셋 등을 이용하여 7가지의 subtask에 대한 Instruction과 답변 후보를 제시합니다. 이러한 평가 방식은 MMLU 이후 매우 많은 LLM 벤치마크 논문들에서 활용되는 평가 방식으로 성능의 신뢰성이 높다는 장점이 존재합니다. 실제로 다양한 Vision Language Model에 대한 결과물을 살펴보면, 1) 모델의 크기가 클수록 2) 텍스트를 이용하여 정상/비정상 정보를 입력할수록 성능이 개선되는 모습을 보여주고 있습니다. 다만 다양한 이미지에 대해 비교하도록 학습한 모델이나 expert 모델을 통한 시각화 입력을 제공하는 경우에는 기대와 달리 성능이 오르지 못하는 모습을 보이고 있습니다. 이는 이러한 방법론의 효과가 없다기 보다는, 매우 급격하게 성능이 개선되는 vision language model의 특성에 기인하는 것으로 보입니다. 일반적인 MLLM과 다르게 산업용 AD를 위한 MLLM이 가져야 하는 능력에 대해 잘 서술한 논문이라는 인상을 받을 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 기반으로, 산업 이상 탐지(Industrial Anomaly Detection, IAD) 분야에서 MLLM의 성능을 평가하는 최초의 벤치마크 구축에 대한 연구를 다루었습니다. 기존 MLLM 평가가 일반적인 비전-언어 태스크에 집중된 반면, 본 연구는 Anomaly Detection, Defect Classification, Localization 등 산업 현장에서 중요한 과업을 포함하는 현실적인 평가 프레임워크를 설계했습니다. 특히, 4개의 대표적인 산업 데이터셋에서 7개 세부 과업, 38개 이상 탐지 카테고리를 포함한 총 39,672개 평가 샘플을 구축하여, 다양한 이상 탐지 시나리오에서 MLLM의 성능을 비교할 수 있도록 하였습니다. 실험 결과, GPT-4o 등의 상업용 모델이 일반 사용자보다 우수한 성능을 보였으나, 여전히 인간 전문가보다 낮은 성능을 기록하였으며, Expert Agent 기반 접근법이 성능 개선에 효과적임을 확인하였습니다. 다만, 질문 유형의 다양성 부족과 데이터 정제 기준의 모호성은 향후 개선이 필요한 부분으로 지적되었습니다. 이번 연구는 산업 도메인에서 MLLM의 적용 가능성을 탐색하는 시초의 연구로서 의미 있는 기여를 하였으며, 향후 RAG 및 도메인 특화 모델을 활용한 추가 연구가 기대됩니다. 좋은 발표 감사합니다!
이번 세미나에서는 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection” 논문을 소개해주셨습니다. 기존 Multimodal Large Language Models(MLLM)이 일반적인 비전-언어 태스크 위주로 평가되던 한계를 넘어, 산업 현장에서의 이상 탐지(Industrial Anomaly Detection)를 위한 체계적인 평가 벤치마크인 MMAD를 제안한 점이 특히 흥미로웠습니다. MMAD는 4가지 대표적인 산업 데이터셋에서 총 38개 제품 및 244가지 고장 유형을 포함하여 7가지 세부 과업과 39,672개의 평가 샘플로 구성된 포괄적인 평가 프레임워크를 구축하였으며, Semantic Annotation을 위한 Prompting과 Filtering 과정을 통해 정교한 데이터 품질을 확보하였습니다. 실험에서는 GPT-4o, Gemini-1.5, InternVL2와 같은 대표적인 상업용 및 오픈소스 MLLM을 대상으로 성능을 비교했으며, Retrieval-Augmented Generation(RAG) 및 Expert Agent 기반 접근법을 적용하여 산업 도메인의 전문 지식을 모델에 보완하는 방법이 성능 향상에 효과적임을 확인했습니다. 비록 데이터셋 구축 과정에서 질문 유형의 다양성 부족과 데이터 정제 기준의 모호함이 향후 개선 과제로 지적되었지만, 산업 현장에서 MLLM을 활용한 이상 탐지 연구의 첫 번째 포괄적인 평가 프레임워크로서 의미 있는 연구였습니다. 좋은 발표 감사합니다.
이번 세미나에서는 MLLM을 활용한 산업 이상 탐지(Industrial Anomaly Detection) 연구를 평가하기 위한 새로운 벤치마크 “MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection”를 제안한 논문을 소개해주셨습니다. MLLM을 활용하여 단순한 탐지를 넘어 이상 발생 원인 설명 및 추가 정보 제공이 가능하다는 점과, 기존의 이상 탐지 벤치마크로는 MLLM의 능력을 온전히 평가할 수 없다는 문제의식을 바탕으로 MMAD가 설계되었다는 점이 인상 깊었습니다.
또 실험 결과에서 GPT-4o와 같은 최신 MLLM들이 특정 영역에서 일반 사용자보다 높은 성능을 보였다는 점이 흥미로웠습니다. 하지만, 전문지식을 가진 사람들보다는 아직 성능이 낮았다는 점은 산업 환경에서 실질적인 도입이 이루어지려면 추가적인 개선이 필요하다는 것을 의미하는 것 같습니다.
MMAD는 산업 도메인에서 MLLM을 평가할 수 있는 새로운 기준을 제시했다는 점에서 의미 있는 연구였습니다. 산업 현장에서 MLLM을 활용한 실질적인 이상 탐지가 이루어질 수 있는 연구의 시작점이라고 생각이 듭니다. 좋은 발표 감사합니다.
이번 세미나에서 소개해주신 논문은 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 으로 Industrial Anomaly Detection 분야에서 Multimodal LLM의 정량적인 결과를 비교할 수 있는 포괄적인 벤치마크입니다. MLM이 산업현장의 품질 검사관을 대체하기 위해 어떤 능력이 필요할지 7가지 subtask를 선정하였고 이는 현실 상황을 고려하여 실질적으로 적용 가능한 평가 항목을 제공하고 있다는 점에서 인상깊었습니다. 한편으로는 산업 도메인 외의 상황에서의 이미지와 문항도 포함되면서 개별 task에 맞는 일반화된 성능향상을 기대하고 있다는 점에서도 인상깊었습니다. 해당 논문을 시작으로 산업 이상치 탐지 분야에서 MLLM의 활용한 연구가 진행될 수 있는 최초의 평가 벤치마크를 제공했다는 점에서 의미 있는 연구라고 생각합니다. 좋은 발표 감사합니다.
이번 세미나에서는 "MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection" 논문이 소개되었습니다. 이 연구는 산업 환경에서의 이상 탐지를 위한 다중모달 대형 언어 모델(MLLMs)의 성능을 평가하기 위해 MMAD라는 새로운 벤치마크를 제안했습니다. 기존의 이상 탐지 방법들이 특정 데이터셋에 한정되거나 단일 모달 데이터를 활용하는 경우가 많았던 반면, 본 논문은 다양한 산업 이미지를 포함하는 대규모 벤치마크를 구축하여, MLLMs의 실제 환경에서의 활용 가능성을 종합적으로 분석했다는 점에서 의미 있는 기여를 했다고 생각됩니다. 이 논문은 MLLMs의 이상 탐지 능력을 체계적으로 평가한 첫 번째 연구로, 향후 모델 성능을 개선하고 실용성을 높이기 위한 중요한 기준점을 제공한다는 점에서 의의가 큽니다. 향후 다양한 산업 도메인에 특화된 데이터 학습과 모델 최적화 연구가 병행된다면, MLLMs의 활용 가능성이 더욱 확대될 것으로 기대됩니다. 좋은 발표 감사합니다!