[Paper Review] Multi-Label Image Recognition with GNN

Paper Review
작성자
Jungho Lee
작성일
2023-01-15 23:44
조회
2753
1. Multi-Label Image Recognition with Graph Convolutional Networks (2019 CVPR, 679회 인용)
2. Vision GNN: An Image is Worth Graph of Nodes (2022 NeurIPS, 18회 인용)

3. ML-VIG: MULTI-LABEL IMAGE RECOGNITION WITH VISION GRAPH CONVOLUTIONAL NETWORK(Under Review)

주요내용
  • Multi-Label image recognition 에 대한 기본 개념을 파악하고, 해당 task 에서 중요한 요소를 파악함
  • MLIR 분야에서 GNN 을 어떤식으로 활용했는지, 그리고 유사연구 분석
  • Vision GNN 논문에서는 최신 Vision 분야에서의 GNN 활용을 설명하고, ViT 와 GNN 의 유사점을 통해 관련 TASK 를 설명함
  • ML-VIG 에서는 MLIR 에서 ViG 를 이용한 최신 논문에 대해서 리뷰함
발표 자료: 추후 업로드

발표 영상: 추후 업로드
전체 17

  • 2023-01-16 10:52

    금일 세미나는 "Multi Label Image Recognition with GNN"라는 주제로 진행되었습니다. 본 발표에서는 하나의 이미지 내에 여러 개의 label이 포함된 것을 인지하고 그 label을 찾아내는 multi-label image recognition task가 소개되었고, GNN을 활용하여 이를 해결한 3개의 방법론이 소개되었습니다. 현실 세계에서는 여러 개의 label을 가지는 이미지들이 존재하는 경우가 많기 때문에 이러한 task를 해결하는 것이 application 측면에서 매우 필요하다는 생각이 들었습니다. 하지만, 해당 방법론들에는 각 이미지가 가지는 label의 개수를 고려하지 않고 top k개에 대한 class를 예측하고 이를 기반으로 성능을 도출한 점에 대해 의문이 들었습니다. 모든 이미지들의 label의 개수가 다르기 때문에 당연히 이를 고려하여 분류를 해야한다고 생각하기 때문에 논문에서의 세팅이라면 현실에서 사용하기에 어려움이 있을 것 같다는 아쉬움이 있었지만, 현실에서 필요한 task 해결의 시작이 되는 좋은 논문들이라는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2023-01-16 13:12

    이번 세미나에서는 Multi label Image recognition에 GCN을 활용하는 “Multi-Label Image Recognition with Graph Convolutional Networks”(ML-VIG) 논문에 대해 다뤄 주셨습니다. 본 방법론 설명에 앞서 Multi label Image Recognition은 무엇이며, GCN을 어떻게 활용하며 어떤 문제가 있는지 Multi label image recognition with GCN 와 VisionGNN 두 논문을 이용하여 설명을 해주셨습니다. 전체적인 틀은 기본적인 Multi label Image classification 에 label graph를 사용하는 방식입니다. 오늘의 본 논문인 ML-VIG는 이러한 기본 형태는 가져가되 graph node를 이용하여 transformer encoder를 구축하며, encoder를 통해 나온 이미지 정보를 기반으로 구축한 label node를 이용하여 최종 logit을 산출하게 됩니다. Transformer를 fully connected graph 기반 aggregation 한다라고 이해하는 방식과 Vision task에서 label 정보를 활용하는 방식이 인상깊었습니다. 또한 발표 중에 논문 내용의 의도들을 같이 풀이해주신 부분이 인상적이었습니다. 어려울 수 있었지만 세 논문을 하나씩 소개 해주셨기에 수월하게 이해할 수 있었던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-01-18 15:41

    이번 세미나는 그래프 네트워크를 활용하여 하나의 이미지 속에서 여러 물체를 인식하는 과업(Multi-Label Image Recognition)을 주제로 진행되었습니다. 그래프 네트워크는 객체간 연관성, 관련성을 고려하는 것이 이점인 과업에서 효과적인 것이 여러 연구를 통해서 입증되었습니다. 본 과업에서도 마찬가지로 하나의 이미지 속에서 등장하는 객체간의 관계를 잘 파악하는 것이 중요하기 때문에 그래프 네트워크의 활용이 충분히 합리적입니다. 발표자 분께서 세 가지 방법론을 소개해주셨는데 모두 결과적으로는 이미지 representation과 각 객체의 label representation을 이용하고 있습니다. 특히 label representation은 학습용 데이터셋에서 각 샘플 내에서 동시 등장의 조건부 확률을 구하여 각 노드는 label이 되고 edge와 weight는 해당 확률이 되는 그래프를 구성합니다. 단일 이미지로 부터 하나의 representation을 구하는 방법 부터 단일 이미지를 patch로 구분하여 patch 간 관계를 나타내는 그래프를 구성한 후 representation을 구하는 방법, 마지막으로는 이미지의 patch와 label을 함께 고려하는 방법 등으로 방법론이 발전해왔음을 알 수 있었습니다. 특히 patch와 label을 하나의 그래프로 나타내어 label 정보를 patch가 받을 수 있도록 한 점이 인상적이었습니다. 재미있는 발표 잘 들었습니다.


  • 2023-01-18 20:05

    이번 세미나는 Multi-Label image recognition with GNN을 주제로 세가지 논문을 소개해주셨습니다. Multi label image recognition을 소개해주신 후 GNN을 활용했던 초기 모델, Vision GNN,ML-ViG를 순서로 설명해주셨습니다. Vision GNN은 하나의 image patch를 node로 본 후 graph를 구성했습니다. KNN을 기반으로 그래프를 구성하며 학습 과정에서 Graph convolution layer는 노드별 이웃노드들과 가장 큰 차이값을 message로 전달합니다. 해당 논문에서는 image 내의 multi label의 관계를 고려하기 위해 graph patch를 구성한 motivation이 납득되었습니다. ML-ViG는 Vision GNN을 한단계 더 발전시킨 모델로 patch graph-label graph를 함께 학습하는 구조를 제안했습니다. label node들이 patch node와 동일한 공간에 mapping되게 한 후 correlation을 학습했습니다 . 다만 모든 Label에 대한 fc layer를 구성한 후 concatenate하고 top 3를 선택하여 성능을 측정하는 흐름이 다소 의문스러웠습니다. 하나의 input에서 여러가지 label mapping이 필요한 task는 Graph 기반 접근법을 활용하는것이 중요하다 느껴집니다. ML-ViG의 아이디어는 다양한 task에서도 적용될 수 있을 것 같아 흥미로웠습니다. 감사합니다.


  • 2023-01-27 17:12

    이번 세미나에서는 그래프 구조를 활용한 aplication에 대한 연구 3가지(Multi Label Image Recognition, Vision GNN, ML-ViG)를 소개해 주셨습니다. 발표는 순서대로 Multi Label Image Recognition(MLIR) task에서 Graph가 사용되는 상황과 해당 task에서의 쟁점에 대해 설명, Vision GNN에서는 ViT 와 GNN의 유사점을 통해 vision 분야에서 GNN의 활용 가능성을 설명으로 이어졌으며, 마지막으로 MLIR 에서 ViG를 활용하는 최신 연구를 소개해 주셨습니다. 이번 세미나에서는 마지막 최신 연구보다도 앞의 두 논문에서 해당 task에 graph 구조를 활용한 목적에 대한 설명이 특히 인상적이었습니다. MLIR는 하나의 이미지에 다수의 객체(label)이 포함되는 경우 각각의 객체를 찾아내고, 함께 등장한 객체 사이의 관계를 학습 하는 task로, 단순히 이미지 내 각 객체의 위치를 분리하여 학습을 수행하면 서로간의 관계를 학습하지 못합니다. 때문에 첫번째 논문에서는 객체 서로에 대한 조건부 확률을 사용하는 GNN을 통한 학습이 효과를 볼 수 있었다고 합니다. 구체적으로는 Image Representation에는 일반적인 CNN, Label text Representation에는 사전학습된 Glove를 활용한 GCN을 사용한 후 둘을 dot product하면 label의 수만큼의 loss 만들어 냅니다. 본 과정이 마치 multi-modal 연구인 CLIP과 유사하다는 생각이 들었으며 매우 인상적이었습니다. 다음으로 vision 분야에서 최근 널리 사용되는 Patch를 활용하는 ViT의 경우 distance를 중심으로 고려하게 되는데 GNN의 경우에는 단순한 거리가 아니라 node 사이의 연결을 고려하기 때문에, 더 고차원의 graph 상에 embedding 하는 것으로 단순한 2d distance 이상의 의미적인 관계를 반영할 수 있다는 점이 와닿았습니다. 저도 graph 구조를 활용한 연구에 관심이 있어 더욱 재밌게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-01-27 18:09

    이번 세미나에서는 Multi-Label Image Recognition과 관련한 논문 3편을 다루어 주셨습니다. 구체적으로는 Vision 분야에서 GNN이 어떻게 활용되는지에 대한 관련 연구들을 소개해 주셨습니다. 이미지에 여러 개의 객체가 있는 경우 label의 관계까지 함께 고려하기 위해 graph 구조를 이용하여 multi label image recognition을 진행하게 됩니다. 그래프와 이미지의 정보를 함께 학습하며 이미지와 라벨을 매핑시킬 수 있는 방법론으로 GCN을 활용하여 label representation과 image representation을 결합하고 있습니다. Label Graph Construction에 있어서는 p값을 이용하여 어떤 노드에 집중할지를 조절해주고 있습니다. Vision GNN에서는 label간의 dependency를 고려하여 이미지 representation을 생성하고 있으며 하나의 이미지를 여러 개의 patch로 나누어 그래프 구조로 다루고 있습니다. ML-ViG에서는 CNN을 이용하여 label representation을 생성하고 GCN을 최종적으로 이용하여 logits를 생성하고 있습니다. 전체적인 프레임워크는 크게 PLG 블럭과 LLG 블럭으로 이루어져 있으며 전자에서는 코사인 거리를 기반으로 한 KNN 이웃 탐색, 후자에서는 label간의 correlation을 학습하고 있습니다. 각각의 과정을 step by step으로 예시를 들어가며 설명해주셔서 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다!


  • 2023-01-28 21:29

    이번 세미나에서는 Multi-Label Image Recognition에 Graph Neural Network를 활용한 연구 세 가지를 소개해 주셨습니다. 첫 번째 연구 소개 챕터에서는 세미나에서 다루는 Task인 Multi-label Image Recognition이 무엇이고 왜 단순히 Image Representation을 잘 생성하는 것뿐만 아니라 Graph 구조를 활용해야 하는지에 대해 설명해 주셨습니다. 하나의 이미지 내에 사람과 서핑보드가 동시에 존재하는 경우, Graph 구조를 활용해 이미지에 서핑보드가 존재할 경우 사람이 함께 존재할 확률이 높다는 것과 같은 Label 간의 관련성을 Graph를 이용해 표현할 수 있다는 것이 합리적이라 생각되었습니다. 두 번째로 소개해주신 연구에서는 ViT에서 이미지를 여러 개의 Patch로 나누는 아이디어를 차용해 하나의 이미지를 Patch 단위로 나누어 각 Patch를 Node로 간주해 Graph 구조로 변형시켰다는 점이 인상적이었습니다. 마지막으로 소개해주신 연구에서는 두 번째로 소개해주신 방법론인 Vision GNN을 통해 Image Representation을 생성해 Patch Logit값을 구하고 Label 정보를 함께 적용할 수 있는 방식을 제안했습니다. 발표자께서 이전 세미나에서는 Time Series Forecasting에 GNN을 활용한 방법론을 소개해주셨는데, 이번에는 Multi-Label Image Recognition에 GNN을 활용한 방법론을 소개해주셔서 GNN의 활용 범위가 넓다는 것을 다시 한번 더 체감할 수 있었습니다. 이전 김중훈 석사 과정이 세미나에서 다루었던 CRS Task에서도 Graph 형태의 Knowledge Base에 GCN을 활용했는데 이번 세미나를 통해 Graph 구조를 활용한 새로운 방법을 접할 수 있어서 좋았습니다. 첫 번째 연구 소개에서 Multi-Label Image Recognition과 Graph 구조를 활용하는 이유에 대해서 설명해 주신 덕분에 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다.


  • 2023-01-29 17:50

    이번 세미나는 Multi-label image recognition with GNN이라는 주제를 통하여 진행되었습니다. 전체적인 내용은 GNN이라는 분야를 더 발전시키는 어떠한 모델링에 관한 내용이 아닌, 이를 더 어떻게 Application 할 수 있느냐라는 것 이였습니다. 먼저 Multi-label image recognition이란 하나의 이미지 내에서 여러 개의 객체들이 포함되어 있을 때, 이를 인지하여 찾아내는 Task를 말합니다. 이때, 각 객체들을 잘 Representation 하는 것도 중요하지만, 객체들의 사이를 잘 Mapping하여서 객체 간 상관관계를 잘 구축하는 것도 중요한 Task라고 볼 수 있겠습니다. 이번 세미나에서는 이러한 Multi-label image recognition 문제를 해결하는 3 가지의 방법론을 제시해주고 있었습니다. 첫 번째 방법론에서는 Label간의 관련성을 고려하여 Image와 Label을 Mapping하고자 GCN를 이용하고 있었습니다. 두번째로 소개해주신 Vision GNN은 Label dependency를 고려한 이미지 Representation을 생성하고자 GNN에 ViT의 아이디어를 적용한 Vision GNN 이였습니다. 해당 방법론에서는 하나의 이미지를 Graph 구조로 다룰 수 있도록 Graph patch 방법을 제안하고 있었습니다. 이 과정에서 기존 ViT에서 Patch 단위로 이미지를 나누는 것과 달리, 거리 정보를 고려하지 않기에 더 고차원의 공간에서 Mapping할 수 있게 되었다는 것이 인상적으로 다가왔습니다. 마지막 방법론인 ML-ViG 입니다. 이는 ViG를 Multi label recognition에 어떻게 사용할 수 있을까? 라는 생각에서 출발한 방법론입니다. 해당 모델의 전체적인 구조는 ViG Block과 동일한 과정을 Label Node 기준으로 진행하도록 하는 PLG Block과 Label 간의 Correlation을 학습하기 위한 LLG Block으로 이루어져, 최종적으로 Patch와 Label 값을 결합시켜 최종 Logit을 산출하고 있었습니다. Graph라는 구조에서 Multi-label image recognition task 어떻게 다루는지 하나하나 자세히 설명해 주셔서 이해가 수월했고, Graph라는 분야가 다양한 분야에 사용되는 것을 보면서 Graph 분야의 잠재성을 다시 한번 상기할 수 있었습니다. 좋은 발표 정말 감사드립니다.


  • 2023-01-29 18:05

    이번 세미나에서는 Multi-Label Image Recognition task를 GNN 기반 모델들로 해결하는 3가지 방법론을 다루었습니다. 이 task에 대한 초기 모델에서는 GCN을 활용할 때 필요한 Adjacency Matrix를 label의 동시 발현 빈도에 기반한 조건부 확률 행렬을 계산하여 사용했습니다. 다음으로 다루었던 Vision GNN모델은 ViT의 아이디어를 활용한 모델로 Label dependency를 고려하여 이미지 representation을 생성합니다. 일반적인 patch와 다르게 knn을 통한 graph patch를 구성함으로써 ViG Block을 구성합니다. GCN과 Transformer가 큰 관점에서는 같다고 설명해주신 부분이 인상적이었습니다. 마지막으로 다루었던 ML-ViG라는 모델은 Vision GNN모델과 비슷하지만 이미지 Patch와 Label의 관계성을 직접적으로 모델링한다는 점에서 차이점을 보였습니다. 처음 첩하는 task와 방법론들이라 내용이 쉽지 않았지만 많은 시각 자료를 통해 설명해주셔서 쉽게 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-01-29 20:53

    이번 세미나는 Multi-Label Image Recongnition with GNN를 주제로 진행되었습니다. Multi-Label Image Recongnition이란 하나의 이미지 내에 여러 객체를 찾아내는 것을 의미하는데 단순히 객체를 찾아내는 것이 아닌 객체 간의 관련성을 학습하여 조건부 발생 확률을 구하여 한 객체가 등장했을 때 다른 객체가 등장할 확률을 통해 여러 객체 인식의 성능을 높이는 것을 목표로 하고 있습니다. 객체 간의 관련성을 위해 그래프를 사용하고 있습니다. 이번 세미나에서 GNN을 통한 multi label image recognition task를 수행하는 세 가지 논문에 대해서 소개해주셨습니다. 해당 task는 image representation을 잘 학습하는 것 뿐만 아니라 label representation도 잘 학습해야합니다. 세미나에서 소개해주신 최신 논문 두가지는 ViT의 아이디어를 차용하여 성능을 높이고자 한 점이 인상 깊었습니다. Muti-label image recogntion이 단순히 여러 객체만 인식하면 되는 줄 알았는데 그래프를 통해 객체 간의 관계를 고려하는 점이 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2023-01-29 20:53

    이번 세미나는 Multi Label을 가지고 있는 Image Recognition을 GNN 방법론을 기반으로 해결하는 세가지 논문이 주제였습니다. 세가지 논문 모두 공통적으로 복수의 객체가 존재하는 이미지 데이터에 대해 분류 문제를 해결하기 위해 Text의 정보를 활용하는 방법을 취하고 있습니다. 이는 CLIP과 유사하게 Image의 representation과 Text representation을 align 시키는 과정을 통해 이루어지게 됩니다. 이때 기본적으로 레이블의 동시 발현 빈도 등을 이용하여 class label에 대한 그래프를 구축하고, 해당 그래프에 대해 GNN 모델링을 통해 이미지 내 객체 간의 관계를 표현할 수 있는 Text Representation을 생성하게 됩니다. Vision GNN은 각 이미지 패치를 노드로 간주하고, Node Embedding을 이용한 KNN 방법론을 통해 aggregation하여 이미지 픽셀 단위로 멀리 떨어져 있지만, 유사한 정보를 가지고 있는 객체들에 대해 처리할 수 있는 그래프 구조를 제안합니다. 마지막 논문에서는 Vision GNN과 Label 정보를 모두 활용하여 이미지와 label 모두의 상관관계를 고려한 구조를 제안하고 있습니다. 그래프 구조가 다양한 정보를 저장하고 처리하는데 매우 유용하다고 생각하지만, 그래프 구축에 있어 상당한 제약이 있다고 생각했는데, 단순한 label 간의 상관관계 등을 통해 구축하거나 node embedding의 유사도를 통해 구축하는 과정이 과연 추가적인 자원 소모에 비해 성능 향상이 유의미한지 아직 의문이 남는 것 같습니다. 좋은 발표 감사드립니다.


  • 2023-01-29 20:58

    이번 세미나는 Multi-Label Image Recognition with GNN을 주제로 진행되었습니다. 발표자 분께서 세미나를 통해 꾸준히 소개해주시고 계신 GNN에 대해 비전 분야와 관련지어 새롭게 알아갈 수 있는 부분이 많아 유익했습니다. 2019년 CVPR에 등재된 논문 Multi-Label Image Recognition with Graph Convolutional Networks를 통해 task에 대한 개괄적인 설명을 해주셔서 이후 소개된 두 논문을 이해하는데 오움이 되었습니다. Multi-Label Image Recognition이란 하나의 이미지 내에 존재하는 여러 객체들을 인식하는 task로 하나의 객체만을 인식하는 multi-class 분류 task와 구분됩니다. 이때 그래프의 정보를 활용하여 객체 간 관련성을 학습하고 이미지와 라벨의 관계를 포함하는 output을 생성하기 위해 GNN이 활용된다고 볼 수 있습니다. 두 논문 Vision GNN: An Image is Worth Graph of Nodes과 ML-VIG: MULTI-LABEL IMAGE RECOGNITION WITH VISION GRAPH CONVOLUTIONAL NETWORK을 통해 최근 비전 분야에서 활발히 연구되는 ViT를 GNN과 접목한 연구를 소개해주셨습니다. ViT의 이미지 패치를 그래포로 활용하여 객체들의 관계성이 잘 학습되도록 하였습니다. ML-VIG 논문의 경우에는 이미지 패치와 라벨의 관계성을 직접 모델링하여 높은 성능을 기록하였습니다. 이미지 representation 벡터를 GNN에 활용하는 방식이 인상 깊었고, 비슷한 방식으로 확장하여 multi-modal 연구에도 적용해보면 좋을 것 같다는 생각을 했습니다. 유익한 세미나 진행해주셔서 감사합니다.


  • 2023-01-29 21:01

    본 세미나에서는 Multi-Label Image Recognition with Graph Convolutional Networks, Vision GNN: An Image is Worth Graph of Nodes, ML-VIG: MULTI-LABEL IMAGE RECOGNITION WITH VISION GRAPH CONVOLUTIONAL NETWORK 이라는 주제의 3편의 논문에 대한 리뷰를 진행하였습니다. 3편의 논문 모두 MLP 분야에서 GNN을 접목시킨 논문이었습니다. Multi label image recognition이란 하나의 이미지 내에 여러 개의 객체(label)를 인지하고 찾아내는 task를 의미합니다. 단순히 이미지를 잘 찾는것도 중요하지만 이미지 내 객체 간의 관련성을 잘 학습하는 것이 중요한 task입니다. 그렇기 때문에 graph network가 유용하게 작동할 것이라 예상되었습니다. 첫번째 논문인 Multi-Label Image Recognition with Graph Convolutional Networks를 통해 Multi-label image recognition task에 GCN을 어떻게 적용할 수 있는지 알 수 있었습니다. 두 번째 논문인 Vision GNN의 경우 Label dependency 를 고려한 이미지 Representation 생성하였습니다. 기존의 patch에 graph의 아이디어를 적용한 graph patch가 개인적으로 인상적이었고 이는 KNN을 통해 구성하였습니다. 마지막 논문인 ML-VIG의 경우 Vision GNN과 유사한 구조를 갖으며 Label node를 기준으로 VIG를 진행한다는 차이점이 있습니다. 본 세미나를 통해 Multi-label image recognition 분야에서 GNN이 어떻게 활용되는지 흐름을 알 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-01-29 21:27

    이번 세미나는 Multi-Label Image Recognition with GNN이라는 주제로 Multi-Label Image Recognition with Graph Convolutional Networks, Vision GNN: An Image is Worth Graph of Nodes, ML-VIG: MULTI-LABEL IMAGE RECOGNITION WITH VISION GRAPH CONVOLUTIONAL NETWORK 논문에 대한 리뷰가 진행되었습니다. Multi-Label Image Recognition이란 하나의 이미지 내에 있는 여러 객체를 동시에 파악하는 task로 Image Representation을 잘 생성해내는 동시에 객체간의 관계를 잘 파악하는 것이 중요한데 이를 위해 세 논문 모두 GNN을 활용했습니다. 특히 세 논문 중 가장 최근에 공개된 ML-VIG 논문에선 Vision GNN에서 제시한 ViG Block에 local한 정보를 학습하는 PLG Block과 label-label간 correlation을 학습하는 LLG Block으로 구성되는 MLG Block을 추가한 구조를 제시했는데 각 Block을 통해 구한 path와 label 값을 결합시켜 최종적인 logit을 생성하는 과정이 가장 인상 깊었습니다. 비록 익숙치 않은 분야의 논문이었지만 계산 과정을 그림으로 잘 표현해주셔서 이해가 수월했던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-01-29 23:41

    이번 세미나는 Multi-Label Image Recognition with GNN라는 주제에 대해 다루어 주셨습니다. 이미지안에 여러 개의 물체가 포함될 수 있기 때문에 이를 모두 잘 인식하는 것은 중요한데, 이를 위해 각 물체간의 관계를 고려하고자 GNN 구조를 활용했다는 점이 흥미로웠습니다. "Multi-Label Image Recognition with Graph Convolutional Networks, "Vision GNN: An Image is Worth Graph of Nodes" 그리고 "ML-VIG: MULTI-LABEL IMAGE RECOGNITION WITH VISION GRAPH CONVOLUTIONAL NETWORK"라는 논문 모두 이미지안의 동시에 등장하는 객체간의 관계를 파악하고자 GNN 구조를 활용하였는데 그 방식에 차이점이 있었습니다. 특히 Vision GNN에서 label dependency를 고려하고자 label 정보를 함께 사용하여 representation을 생성하는 간단한 방식을 활용하여 성능을 향상 시켰다는 점에서 흥미로웠습니다. 이번 세미나를 통해서 GNN이 물체를 인식하는 vision domain에서도 응용될 수 있다는 점을 알게되어 매우 유익했습니다. 좋은 발표 감사드립니다.


  • 2023-01-29 23:47

    금일 세미나는 Multi-Label Image Recognition에 대한 개념과 관련된 논문들에 대하여 소개해주셨습니다. Multi-Label Image Recognition에서는 Image 내 포함된 objects 뿐만 아니라 objects 간 동시 발생 빈도를 통해 관계를 확인하는 과정이 있습니다. 하지만 실제로 그래프를 구성하여 학습에 사용하는 과정에서는 동시 발생 확률을 그대로 사용할 경우 noise가 많이 발생하기 때문에 threshold를 통해 binary로 사용한다는 점이 의외였습니다. 두 번째 논문에서는 Vision GNN에 대하여 소개해주셨습니다. Vision GNN에서는 patch 단위로 유사도를 계산하여 비슷한 patch 간 관계를 통해 그래프로 구성하여 feature transform을 수행한다는 점이 인상깊었습니다. 앞서 단순히 Patch로 사용하는 경우와 Graph Patch로 사용하는 경우의 차이점에 대하여 비교해주셔서 이해하기 좋았습니다. 마지막 세 번째에는 앞선 두 논문의 내용을 기반으로해서 Multi-Label Image Recognition에 대하여 Vision GNN을 활용해 더 나아간 모델을 제안한 방법에 대하여 소개해주셨습니다. 해당 모델 구조에서 독특한 점은 learnable label embedding에 대한 내용이었습니다. 모델 구조는 크게 Vision GNN을 통해 얻은 Patch Logits과 Learnable Label Embedding을 통해 얻은 label logits을 활용하는 구조입니다. Vision GNN에서의 graph feature space에 label embedding 정보를 mappingg하는 방식으로 구성된 점이 새로워서 인상깊었습니다. 오늘도 좋은 발표 감사합니다.


  • 2023-02-01 11:03

    이번 세미나에선 Multi-label image recognition에 GNN을 활용한 세 가지 연구가 소개되었습니다. MLIR task는 한 이미지 내에 여러 객체를 탐지한다는 점에서 object detection과 유사한 task로 생각하였는데 주로 같이 등장하는 객체들의 관계를 반영할 수 있다는 점에서 차이가 있는 것 같습니다. 그리고 이러한 부분 때문에 GNN 구조가 활용될 수 있는 것 같습니다. 두 번째 연구였던 Vision GNN에선 GNN과 ViT의 유사성을 들어 task에 대해 설명되었는데, 개인적인 생각으론 이러한 점 때문에 ViT가 성능적으로 CNN보다 뛰어날 수 있지 않았나 하는 생각도 들었습니다. 세 번째로 소개해주신 ML-VIG에선 ViT의 patch를 그래프의 노드로 활용하여 attention 구조의 학습에 노드간의 연결성을 사용합니다. Patch 수에 제곱만큼 증가하게 되는 연산량은 ViT의 대표적인 문제점 중 하나로 알고 있고, 이를 개선하기 위한 여러 연구들이 진행되어 왔는데 그 중 그래프를 활용한 연구는 이번 세미나를 통해 처음 접할 수 있었습니다. 짧은 시간동안 유익한 내용을 많이 접할 수 있었던 세미나였습니다. 좋은 세미나 발표 감사합니다.


전체 518
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11522
관리자 2020.03.12 0 11522
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 10164
관리자 2020.03.12 0 10164
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 11247
관리자 2020.03.12 0 11247
515
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (1)
Hyeongwon Kang | 2025.07.29 | 추천 0 | 조회 91
Hyeongwon Kang 2025.07.29 0 91
514
[Paper Review] Recent Research Trends in Video Anomaly Detection (2)
Jaehyuk Heo | 2025.07.27 | 추천 0 | 조회 96
Jaehyuk Heo 2025.07.27 0 96
513
[Paper Review] Introduction to PINN (Some basic concepts and research directions) (9)
Hankyeol Kim | 2025.07.18 | 추천 0 | 조회 171
Hankyeol Kim 2025.07.18 0 171
512
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10)
Sieon Park | 2025.07.14 | 추천 0 | 조회 205
Sieon Park 2025.07.14 0 205
511
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9)
Subeen Cha | 2025.07.10 | 추천 0 | 조회 180
Subeen Cha 2025.07.10 0 180
510
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 363
Jaewon Cheon 2025.06.27 0 363
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 414
Minjeong Ma 2025.06.07 0 414
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 38
Minjeong Ma 2025.06.02 0 38
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 38
Kiyoon Jeong 2025.06.02 0 38
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 33
Woongchan Nam 2025.06.02 0 33

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호