[Paper Review] Cross-modal graph matching network for image-text retrieval

Paper Review
작성자
Gunho No
작성일
2023-09-24 03:40
조회
2398
1. Topic
  • Graph node matching을 통해 Image-text retrieval task를 수행하는 방법론 Cross-modal Graph Matching Network 소개
2. overview
  • Image, text 각각의 fine-grained 정보를 활용하기 위해 각 modal을 나타내는 graph를 만듬
  • modal 사이 inter-relation을 반영할 수 있도록 두 graph 사이에 동일한 object를 matching하는 새로운 graph node matching 기법을 제안
  • Fast image-text retrieval이 가능하도록 학습 과정에서만 cross-modal inter-relation reasoning을 수행
3. 발표자료 및 발표영상
  • 발표자료: 하단 첨부
  • 발표영상: 추후첨부
4. 참고문헌
  • Cross-modal graph matching network forimage-text retrieval(Yuhao Cheng, Xiaoguang Zhu, Jiuchao Qian, Fei Wen, and Peilin Liu, ACM Transactions on Multimedia Computing, Communications, and Applications 2022)[Link]
전체 19

  • 2023-09-23 18:52

    이번 세미나는 image-text retrieval 과업을 수행함에 있어 그래프 네트워크를 활용한 방법론에 대해 소개되었습니다. 본 방법론의 핵심은 multi modal 데이터를 다루는데 그래프 네트워크를 활용했다는 점에 있습니다. 발표자분께서 설명하신대로 text-image retrieval 과업에서 modal instance 사의 relevance를 구하는 방식에 따라 방법론의 특성이 결정된다고 볼 수 있는데, 본 방법론은 각 modal의 instance의 표현을 개별적으로 구한 후 마지막에 결합하는 방식을 취하고 있습니다. 더불어, 본 방법론의 핵심 중 하나는 fine-grained relation reasoning 이 될 것입니다. 즉, text 내 entity 또는 object 와 image내 object 간의 matching을 시도함으로써 말 그대로 관계를 잘 파악하며 궁극적으로 retrival의 성능을 높일 수 있게 됩니다. 한편, 특히 인상적이었던 부분은 image graph였습니다. 이는 Image 안의 object를 추출하여 object 간 관계에 따라 그래프를 구축하는 과정 및 그 결과물을 의미합니다. 이때 spatial 관계와 semantic 관계를 구분하여 생성하고 이를 종합하는 과정이 충분히 합리적이고 유의미해 보였습니다. 다만, 본 방법론에서는 Faster R-CNN 을 통해 inference를 진행하여 의존적인 모습을 보이는 단점이 있습니다. 앞서 언급한 fine-grained relation reasoning을 위해 학습 과정 시에만 활용되는 graph node matching loss에도 object 추출의 결과의 정확도가 큰 영향을 미치지 않을까 생각됩니다. 또한 이미지와 텍스트 임베딩 공간이 서로 다를텐데 직접적으로 유사도를 비교하는 것이 유의미할지 의문이 듭니다. Text-Image 등의 multi modal 과업에 있어서 그래프 네트워크로 해결하는 방법이 어떤 강점을 가질지 면밀하게 검토해볼 필요는 있어 보입니다. 이미 이미지 처리와 자연어 처리를 위한 고성능의 딥러닝 모델들이 많이 존재하는 가운데 그래프 네트워크의 근본적인 속성에 좀 더 연구를 해볼 필요가 있을 것 같습니다. 재미있고 유익한 발표였습니다. 감사합니다.


  • 2023-09-24 17:49

    금일 세미나시간에는 노건호 석사과정이 “Cross-modal graph matching network for image-text retrieval”이라는 논문을 주제로 세미나를 진행하였습니다. 해당 논문은 NLP와 Vision 그리고 Graph까지 활용된 다양한 도메인의 내용이 적용된 multi-modal 연구로 image를 query로하여 관련된 text를 retrieve하거나, 반대로 text를 query로하여 관련된 image를 retrieve하는 Image-text retrieval task를 해결하기 위해서 image와 text matching 하는 과정을 graph를 활용한 연구라고 한 줄로 요약해 볼 수 있습니다. 제가 흥미롭게 주목해서 봤던 부분은 image에서 이를 그래프로 표현하는 방식과 text를 graph로 표현하는 방식으로 각 representation을 어떻게 graph로 구조화 하는지가 매우 궁금했습니다. 해당 논문에서의 키포인트는 image와 text의 그래프 매칭이기에 이를 representation화 하는 방식에는 특별한 방식을 활용하지는 않았고, 각각 이미지에서는 Fast-RCNN의 region과 이에 대한 representation 그리고 텍스트에서는 Bi- GRU를 통해 representation을 활용하였습니다. 이미지에서는 크게 두가지 그래프를 구조를 설계하여 진행하였는데, 이미지의 위치정보를 구조화하는 Spatial Graph와 이미지 간의 semantic 관계를 반영하는 Semantic Graph가 이에 해당합니다. 개인적으로는 semantic 관계에 대한 Semantic 정보를 반영한 그래프에 대한 디테일한 부분을 파악 가능한 예시가 같이 논문에서 제시되었더라면, 좀더 인상적이었을 것 같다고 생각하였습니다. text에서 graph로의 변환과정에서도 기존의 parsing이 가능한 CoreNLP를 활용하여 dependency matrix를 구성하였기에 특별한 contribution을 확인하기는 어려웠습니다. 해당 논문에서 가장 힘을 실었던 부분은 아마도 Visual Graph와 Textual Graph의 matching 과정이라고 생각됩니다. Matching 과정에서는 각 modal의 graph의 구조와 노드가 서로 상이하기에 matching을 위해 이를 summary하는 readout layer에서 node 수에 free한 GRU구조를 활용하는 방식을 활용하였고, 서로 다른 modal 공간의 representation을 동기화 하기위해서 각 modal에 존재하는 객체 쌍 중 가장 가까운 쌍의 유사도가 최대한 커지도록 학습하는 방식을 채택하였습니다. 이러한 방식으로도 충분히 각 modal의 representation이 match가 가능하기에 실제로 당시에 좋은 SOTA에 가까운 성능을 도출하였음을 확인할 수 있었습니다. 해당 논문의 graph matching 부분에서 서로 다른 그래프의 representation을 동기화 하는 과정은 아직 충분히 개선될 수 있고 재미있는 후속 연구로 이어질 수 있을 것 같다는 개인적인 의견이 들었습니다. 그래프를 연구하는 입장에서 꾸준히 재미있는 그래프 활용 논문을 소개해주는 발표자에 감사하며, 이만 후기를 마치도록 하겠습니다.


  • 2023-09-26 20:14

    본 세미나는 노건호 발표자님의 "Cross-modal graph matching network for image-text retrieval"라는 논문을 바탕으로 진행되었습니다. 해당 논문의 task는 Image-text retrieval task로 Image로 text를 retriver하거나, text로 Image를 retrieve하는 것입니다. 따라서 본 논문의 핵심 구조는 1) Two different matching approaches, 2) Fine-grained relation reasoning 입니다. 첫 번째 Two different matching approaches는 해당 논문에서 cross-modal inter-relation reasoning을 수행하도록 하여 independent의 속도와 cross interaction methods의 성능을 동시에 만족하고 있습니다. 다음 두 번째 Fine-grained relation reasoning에서는 image, text 각 modal에 대해 intra-relation을 반영할 수 있는 graph 구조를 제안하였으며 해당 두 graph 사이에 동일한 object를 matching하는 새로운 graph node matching 기법을 제안하고 있습니다. 해당 세미나를 들으면서 결국 중요하다고 느낀 건, image-text라는 성질이 다른 modal의 representation을 graph node matching loss라는 것을 결합해, object가 유사한 representation을 가지도록 학습하는 것이 중요하다고 생각했습니다. 마지막으로 graph embedding이 학습되는 것이 처음에는 직관적으로 이해되지 않았는데, 초반 background에서 자세히 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2023-09-27 12:21

    금일 세미나는 “Cross-modal graph matching network for image-text retrieval” 논문을 바탕으로 진행되었습니다. 해당 논문에서는 Image를 Query로 하여 관련된 Text를 Retrieve하거나, 반대로 Text를 Query로 하여 관련된 Image를 Retrieve하는 Image-text retrieval task를 다루고 있습니다. 이때, 해당 논문에서는 Image와 Text를 Graph 형태로 구성하고 있는데, 먼저 Image에서는 Image 내부의 Object를 추출하여 해당 Object 사이의 관계에 따라 Spatial relation, Semantic relation을 고려하여 Graph 구조를 생성하고 있습니다. 이러한 방법의 장점은 Patch 기반의 Image 처리 방식보다 더 유연하게 적용이 가능하며, 이미지 내 객체들에 대해 개별적인 관련성을 내포하게 할 수 있다는 것입니다. 이때, Object 산출에는 Faster R-CNN을 이용하고 있습니다. 다음으로 Text에서는 문장 내의 각 Token 들에 대하여 Grammatical Dependency Parsing을 수행한 결과를 통하여 Dependency graph를 구성하고 있습니다. 이러한 과정들을 통하여 두 가지 Modality에 대한 Graph를 구축했다면, 각각에 대하여 Intra-relation reasoning을 수행하기 위하여 Graph Convolutional Network(GCN)을 적용합니다. 이후 이렇게 구해진 Node representation에 Retrieval 과정에서 핵심적인 Node와 그렇지 않은 Node에 대해 차등을 주고자 GRU를 사용함으로써 각 Modal에 대해 최종적인Embedding을 얻게 됩니다. 이후에는, GCN 이후 구한 각 모달의 Node representation과 GRU를 통해 얻어진 각 모달의 Node Embedding간 존재하는 동일한 Object가 유사할 수 있도록 각각 Graph node matching loss, Graph embedding matching loss를 통하여 학습하고 있습니다. Graph라는 분야에 생소하여 걱정이 되었지만 방법론에 대하여 자세한 설명과 함께 다양한 예시를 들어 주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2023-09-27 21:21

    이번 세미나는 이미지와 텍스트 두가지 Modality를 GNN을 이용하여 fusion하는 "Cross-modal graph matching network for image-text retrieval"을 주제로 진행되었습니다. 해당 논문은 Image-Text Retrieval 태스크를 중심으로 Multi Modality를 가진 데이터가 있을 때, 이를 GNN을 이용하는 모델링하는 방법론을 중심으로 구성되어 있습니다. 이때 주로 고려되는 점은 Text의 단어 단위, Image의 Patch/영역 단위로 매우 Fine-Grained한 Alignment가 있다고 간주할 수 있고, 이를 모델이 학습하도록 하는 것이 관건이라고 할 수 있습니다. 해당 논문에서는 이를 위해 Text와 Image를 개별적인 GNN 네트워크에 Forwarding하여 개별적인 정보를 Embedding한 후, Fine-Graindned Alignment를 학습하도록 합니다. 또한, 이미지 내의 위치적 관계와 의미적 관계를 학습하도록 Semantic Graph와 Spatial Graph를 별도로 구성하며, 두 그래프 구성 방식은 IoU의 범위를 이용하고 있습니다. 해당 논문은 발표된지 오랜 시간이 지난 논문이지만, 분명한 문제 정의와 제한된 Annotation 상황에서도 모델 스스로 학습할 수 있는 프레임워크를 제안하고 있습니다. Modality 및 목적에 따라 개별적인 GNN을 구성한 것이 매우 인상적인 논문이었던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-10-03 17:01

    이번 논문 세미나에서는 ‘Cross-modal graph matching network for image-text retrieval’이라는 논문을 소개해 주셨습니다. 해당 논문에서는 Image-Text retrieval task를 중심으로 image와 text라는 두 가지의 modal을 GNN으로 활용하여 matching 하는 방법을 제시하고 있습니다. 먼저 Image에서는 Faster R-CNN을 활용하여 regions를 추출한 뒤 regions 사이의 1) Spatial relation과 2) Semantic relation 두 가지 모두를 고려하여 각각 graph를 생성해 내는 방식을 제안하고 있으며, Text에서는 Bi-GRU를 통하여 word-level textual features를 추출한 후 grammatical dependency parsing을 수행하여 얻은 dependency matrix를 활용하여 graph를 생성해 내는 방식을 제안하고 있습니다. 이후 Intra-relation reasoning을 수행하기 위해 GCN을 적용한 후 Graph embedding matching loss + Graph node matching loss / K(=weighted hyperparameter)로 total loss를 설계하여 학습하는 방식으로 마무리되고 있습니다. 개인적으로 ablation study를 보면서 들었던 생각은 Spatial graph를 제외하였을 때 성능 하락이 적은 것을 보아, 논문에서 Spatial graph를 계산할 때 IoU와 cosine distance로 계산하는 방식에서 IoU가 적절한 방법인지, 더 나아가 다른 가능한 방법이 있는지 생각을 많이 해봤던 것 같습니다. 또한 Region proposal의 성능에 따라 크게 좌우되는 구조라는 발표자분의 의견에 동감하며 해당 방법론의 한계점을 알 수 있었으나, 제안하는 방법론이 적은 계산 복잡도와 기존 Cross matching 방법론들과 비교하였을 때 경쟁력 있는 성능을 달성했다는 점에서 해당 논문의 후속연구가 더욱 기대되었던 것 같습니다. 끝으로, 저에게 있어 생소한 분야였던 Graph에 대해 Background를 자세히 설명해 주시며 해당 논문을 이해할 수 있도록 꼼꼼하게 발표를 진행해 주신 발표자분께 감사의 인사를 드립니다. 정말 좋은 발표 감사드립니다.


  • 2023-10-05 23:50

    이번 세미나에서는 “Cross-modal graph matching network for image-text retrieval” 논문을 소개해 주셨습니다. 해당 논문에서 제안하는 CGMN은 이미지 또는 텍스트로 텍스트 또는 이미지를 retrieve하는 retrieval task에 대해 크게 두가지 포인트를 다루고 있습니다. 첫째로, 다른 모달리티간의 relevance를 계산하기 위해 independent representation matching, cross-interaction matching을 이용하며, 각 모달리티의 임베딩을 독립적으로 하는지, 모달리티 사이의 상호작용을 이용하는지에 차이가 있습니다. 다음으로 fine-grained relation reasoning을 이용하여 이미지와 텍스트내 local object간의 정보를 활용하여 각 아이템에 대한 보다 상세한 정보를 얻었으며, retrieval task에선 성능 향상을 이루었습니다. 학습 과정은 크게 4단계로 이루어지며, representation 추출, reasoning과 임베딩, graph 구축, 학습 및 inference로 구성됩니다. 본 발표에 앞서 그래프 구조를 이용했을 때의 이미지 representation을 설명해주셔서 이해에 많은 도움이 되었습니다. 이미지 내 object를 크게 위치 관점의 관계(spatial relation)와 의미 관점의 관계(semantic relation)로 정의할 수 있다는 점 또한 인상적이었습니다. 최근 retrieval task에서 object의 중요성을 다루는 것에 관심이 많은데, 세미나를 통해 해당 부분을 좀더 알아갈 수 있는 좋은 기회가 되었습니다. 좋은 발표 감사합니다!


  • 2023-10-06 09:57

    이번 세미나는 이미지와 텍스트 두 모달리티를 다루는 "Cross-modal graph matching network for image-text retrieval" 논문을 주제로 진행되었습니다. 해당 논문에서는 이미지와 텍스트 사이의 복잡한 관계를 그래프 기반의 접근법으로 탐색하며, 이를 통해 보다 정교한 정보 검색이 가능함을 제안하고 있습니다. 논문에서는 이미지 내의 객체 간의 의미적 관계와 위치적 관계를 모두 고려한 그래프 구축 방법론과, 텍스트의 구문 구조를 활용한 그래프 모델링 방법을 제시하였습니다. 그 후, 이러한 그래프 구조들을 기반으로 한 고급 매칭 전략을 통해 이미지와 텍스트 간의 연관성을 분석합니다. 이 방법론의 도입은 이미지와 텍스트 사이의 미세한 관계까지 포착할 수 있어, 다양한 실제 환경에서의 응용 가능성을 제시하고 있습니다. 요즘 연구실에서 많은 연구원들이 관심을 갖고 있는 Multimodal Retrieval task와 관련된 좋은 내용들을 소개해주셔서 매우 재밌게 잘 들었습니다. 좋은 발표 감사합니다.


  • 2023-10-06 12:49

    이번 세미나에서는 “Cross-modal Graph Matching Network for Image-Text Retrieval”이라는 논문에 대해 소개해주셨습니다. 해당 논문에서 다루고 있는 Image-Text Retrieval Task는 (1) Image를 Query로 사용하여 관련된 Text를 Retrieve하거나 (2) Text를 Query로 사용하여 관련된 Image를 Retrieve합니다. 이를 위해 ( Image, Text ) Pair가 존재하는 데이터를 이용해 모델을 학습시킵니다. 해당 논문에서 제안한 방법론은 Image와 Text라는 각 모달리티에 대한 Representation을 산출할 때 독립적인 모델인 Faster R-CNN w/ Bottom-up Attention과 GRU를 이용합니다. 이후, 두 Representation을 바로 Contrastive Learning 방식을 이용해 두 모달리티 간의 Alignment를 수행하는 것이 아니라 각 모달리티 별로 Graph를 구축합니다. 이때 Image에 관한 Visual Graph 구축 시 Spatial한 정보를 담은 그래프와 Semantic한 정보를 담은 그래프를 생성합니다. 이후 각 모달리티에 대하여 Intra-relation Reasoning을 위해 GCN 및 GRU를 통과해 각 모달리티별 최종 Embedding을 산출합니다. 모델 학습 시에는 Graph Node Matching Loss와 Graph Embedding Matching Loss를 이용합니다. 전자는 서로 다른 모달리티 내에 존재하는 동일한 Obejct간의 Representation이 유사해지도록 하고, 후자는 Gold Image-Sentence Pair의 각 Item의 Graph Embedding이 유사해지도록 합니다. Gold Image-Text Pair가 없는 상황에서 모델을 학습시킬 수 있도록 한 점과 Graph 구조를 활용해 Image-Text Retrieval Task를 수행한 점이 인상적이었습니다. 좋은 발표 감사합니다.


  • 2023-10-06 16:53

    이번 세미나에서는 Graph 구조를 활용하여 Image-to-text, Text-to-image을 Retrieval하는 "Cross-modal Graph Matching Network for Image-Text Retrieval" Multi-modal 논문에 대해 소개해 주셨습니다. Retrieval을 위해 다른 Modal Instance 사이의 Relevance를 계산하는 방식은 Independent Representation Matching과 Cross Interaction Matching 두 가지가 존재하며 Fine-grained Relation Reasoning을 사용해 각 이미지와 텍스트 사이의 관계를 추론합니다. 이를 통해 Different Object 사이의 Intra-modal에 대한 관계와 Same Object 사이의 Inter-modal에 대한 관계를 잘 예측할 수 있게 된다는 점을 알게 되었습니다. 또한 GCN 구조를 사용하여 이미지와 텍스트를 Embedding 하고, Matching Loss를 사용해 서로 다른 두 Modal 사이에 존재하는 같은 Object가 유사한 Representation을 가지도록 학습한다는 것이 매우 흥미로웠습니다. 다만, Loss를 계산하는 과정에서 Image-to-text와 Text-to-image 모두 같은 Matching Loss를 사용한다는 점이 조금 의문이었지만 Flickr, MS-COCO 등의 데이터 셋에서 정량적으로, 그리고 정성적으로 매우 좋은 성능을 달성하는 것을 확인하였습니다. 본 발표를 통해 이제는 Image, Text, Graph 가릴 것 없이 모든 분야를 아우르는 기법이 좋은 성능을 낼 수 있다고 생각하게 되었고 다양한 분야의 논문을 많이 읽어 Fusion 하는 방식도 항상 충분히 고민해봐야겠다고 생각하게 되었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2023-10-06 17:00

    이번 세미나는 image-text retrieval task 관련된 방법론을 소개해주셨습니다. 논문 “Cross-modal Graph Matching Network for Image-Text Retrieval”에서는 graph network를 사용하여 image와 text로부터 관련된 text 혹은 image를 retrieval할 수 있는 새로운 구조를 제안하였습니다. 해당 방법론은 image와 text에 대한 represenation을 산출한 후 각 모달리티별로 graph를 구축하여 그 관계성을 잘 학습할 수 있도록 한 것이 핵심이었습니다. 이를 위해 2가지 loss를 통해 학습을 진행했는데, 첫 번째는 node matchin loss로 각 모달리티가 나타내는 동일한 object간에 represenation이 유사해지도록 하는 역할을 하였고, 두 번째 embedding matchin loss는 image-text pair 간의 embedding이 유사해지도록 하는 역할을 하였습니다. image-text retrieval은 실용성도 높고 task 자체가 매우 흥미롭다고 생각했는데, 이번 세미나를 통해서 어떤 방식으로 연구가 진행되고 있는지 알 수 있어 좋았고, 관계성이 중요한 task이니 만큼 graph 구조를 활용한 점이 인상 깊었습니다. 좋은 발표 감사드립니다.


  • 2023-10-07 18:34

    이번 세미나는 'Cross-modal graph matching network for image-text retrieval' 논문을 주제로 진행되었으며, 해당 논문은 이미지와 텍스트 간의 복잡한 상호작용을 그래프 기반의 접근으로 다루고 이 덕분에 더욱 정확한 정보 검색이 가능해집니다. 본 논문에선 이미지 내 object들의 의미적 관계와 위치적 관계를 담을 수 있는 그래프 생성 방법과 언어 정보를 함께 활용한 그래프 모델링 방법을 제안합니다. 그런 다음, Matching Loss와 같은 loss를 이용하여 다른 모달 간의 유사한 표현을 학습할 수 있습니다. 이 방법은 이미지와 텍스트 사이의 작은 관계까지 포착할 수 있다는 장점이 있습니다. 요즘 멀티모달리티를 다루는데에 연구원들의 관심이 커지고 있는데 그래프 네트워크를 활용한 방법이 있다는 점을 알게된 좋은 발표였습니다. 훌륭한 발표에 감사드립니다!


  • 2023-10-07 22:48

    이번 세미나에서는 Cross-modal graph matching network for image-text retrieval 라는 논문을 다루었습니다. 이 논문의 task는 image-text retrieval로 image 혹은 text를 query로 하여 각각 text 혹은 image를 retrieve하는 task입니다. 해당 방법론은 independent representation matching 방식과 cross-interaction matching의 장점을 활용하여 efficiency가 높은 retrieval을 학습시키며, fine-grained relation reasoning을 활용하여 각 item으로부터 상세한 정보를 찾아옵니다. 해당 방법론은 representation을 얻고 graph를 구축한 후, reasoning과 embedding 과정을 거쳐 학습됩니다. 또한, graph node matching loss와 graph embedding matching loss를 활용함으로써 image와 text간 효율적인 alignment를 보입니다. 실험에서도 속도와 성능 모두에서 이점이 있는 모습을 보여줍니다. Graph를 활용한 multi-modal 방법론을 처음 접해서 신선하고 설명히 자세하여 이해가 잘 되었던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-10-08 23:41

    이번 세미나에서는 “Cross-modal graph matching network for image-text retrieval”으로 진행되었습니다. image-text retrieval task로 representation을 graph로 구축하여 두 모달간의 graph matching을 통해 relevance를 계산하여 retrieve를 하는 방식입니다. graph를 만든 후 intra-relation reasoning을 위해 GCN을 적용합니다. 두가지 loss를 사용하여 학습되는데, 먼저 node matching loss를 이용하여 텍스트와 이미지가 동일한 object를 나타내는 노드에 대해 represenstation이 유사해지도록 하는 역할을 합니다. 두번째는 embedding matching loss를 사용하여 image-text pair간의 representation이 유사해지도록 합니다. 해당 방법을 통해서 Flickr30k와 MS-COCO에서 효과적인 성능을 보였습니다. 해당 세미나를 통해서 멀티모달 retrieval에 대해 배울 수 있었고, 두가지 모달간의 representation alignment를 위한 접근방법을 배울 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-10-08 23:56

    이번 세미나에서는 "Cross-modal graph matching network for image-text retrieval"에 대해 소개해주셨습니다. 해당 논문에서는 image-text retrieval task를 다루고 있는데, image를 query로 하여 관련된 text를 retrieve하는 sentence retrieval과 반대로 text를 query로 하여 관련된 image를 retrieve하는 image retrieval로 나누어집니다. 소개하고 있는 방법론은 바로 Cross-model Graph Matching Network(CGMN)으로, image-text retrieval task를 visual graph와 textual graph를 개별적으로 구축하여 matching을 바탕으로 적절하게 retrieve하도록 한 방법론입니다. 전체적인 process는 크게 4단계로 구성되며, 우선 input에 대해 representation을 계산하게 되고, 이를 바탕으로 graph를 구축합니다. Image의 경우에는 image semantic graph와 image spatial graph 2가지를 구축하게 되며, text의 경우에는 문장의 grammatical dependency를 반영힌 textual graph를 구축합니다. 이후 각 graph에 대해 각각 intra-relation reasoning을 수행하여 최종적인 representation을 얻게 됩니다. 이후 마지막 단계에서는 graph node matching loss와 graph embedding matching loss를 통해 효과적인 image-text retrieval task를 해결하게 됩니다. 최근 이와 같이 멀티모달 관련한 여러 연구들이 진행됨은 알고 있었으나, 개인적으로는 많이 접해보지 않았었는데 이번 세미나를 통해 조금이나마 알게 되어 좋았던 것 같습니다. 좋은 발표 준비해주셔서 감사드립니다.


  • 2023-10-09 15:07

    이번 세미나에서는 "Cross-modal graph matching network for image-text retrieval" 논문을 다루었습니다. 이 논문은 이미지와 텍스트를 결합하여 관련 정보를 검색하는데 그래프 네트워크를 사용하는 방법을 소개하고 있습니다. 주요 포인트는 이미지와 텍스트를 각각 처리한 후 결합하는 방법, 이미지에서의 객체 간 관계를 그래프로 나타내는 Spatial Graph 및 의미 관계를 나타내는 Semantic Graph, 그래프 매칭 프로세스 등입니다. 이 논문은 Multi-Modal 데이터와 Fine-Grained Alignment을 다루는데 도움이 되며, 모델이 스스로 학습할 수 있는 프레임워크를 제안합니다. 전체적으로 그래프 네트워크를 활용한 Multi-Modal 검색에 관한 흥미로운 논문으로 인상적이었습니다. Task 측면에서 text to image retrieval은 일반적으로 이미지를 찾기위해 입력으로 텍스트를 사용하는 경우라고 볼 수 있지만 image to text retrieval은 어떠한 목적의 task인지 궁금증이 있었습니다. 좋은 발표 감사합니다.


  • 2023-10-09 19:40

    이번 세미나는 Cross-modal graph matching network for image-text retrieval를 주제로 진행되었습니다. 본 논문에서는 Image를 query로 하여 관련 text를 retrieve하거나 반대의 retrieve를 수행하는 image-text retrieval task를 다루고 있습니다. 본 논문에서 제안하는 Cross-modal graph matching network(CGMN)은 image representation을 위해 Faster R-CNN을 text representation을 위해 Bi-GRU를 사용합니다. 이렇게 구한 image representation에 대해서는 semantic, spatial graph를 text representation에 대해서는 textual graph를 생성합니다. 각 graph는 GCN을 사용하고 두 이미지 graph node embedding의 평균을 통해 최종 node representation을 구하고 textual graph node embedding과 graph similarity, embedding similarity를 통해 학습을 진행합니다. Image-text retrieval task에 대해서 graph를 적용한 연구를 처음 접하게 되었는데 단순히 image graph를 생성하는 것이 아닌 spatial과 semantic을 고려한 점이 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2023-10-11 03:19

    이번 세미나에서는 "Cross-modal Graph Matching Network for Image-Text Retrieval" 논문을 중심으로 이미지와 텍스트 간의 관계를 그래프 기반으로 탐색하는 방법론에 대해 소개해주셨습니다. 해당 논문은 Image-Text Retrieval 태스크에 초점을 맞추고, 이미지와 텍스트의 복잡한 관계를 깊게 이해하기 위해 그래프 구조를 활용합니다. 이미지에서는 주로 객체 간의 의미적 및 위치적 관계를 분석하고, 텍스트에서는 문장의 구문 구조와 단어 간의 관계를 파악하여 각각 그래프를 생성했습니다. 이후, 생성된 그래프들은 GCN과 GRU 등의 기법을 통해 처리되며, 학습 과정에서는 그래프 노드 매칭 손실과 그래프 임베딩 매칭 손실을 사용하여 모델을 최적화합니다. 이러한 과정을 통해 논문은 이미지와 텍스트 간의 관계를 보다 정확하게 포착하고, 효과적인 검색 성능을 달성하는 방법을 제시하였습니다. image-text retrieval을 위해 graph 구조를 활용하는 기법이 다소 간단했지만 좋은 성능을 기록한것이 인상깊었습니다. 좋은 발표 감사드립니다.


  • 2023-10-11 15:48

    이번 세미나에서는 Graph node matching을 통해 Image-text retrieval task를 수행하는 방법론인 Cross-modal Graph Matching Network에 대해 소개해주셨습니다. 해당 방법론은 Image와 Text 각각의 fine-grained 정보를 활용하기 위해 각 modal을 나타내는 graph를 만들게 됩니다. 그래프 내의 object 간의 위치 관계, 잠재적 의미 관계를 학습하며, 위치관계를 반영하기 위해 object간 겹치는 정도인 IoU를 사용합니다. 그 후 modal 간의 관계를 반여할 수 있도록 두 graph 사이에 동일한 object를 매칭하는 새로운 그래프 노드 매칭 기법을 제안합니다. 구성된 방법론들이 상당히 직관적이면서도 합리적이지만 modal 간의 semantic relationship이 학습하는 과정에서 잘 학습되기를 조금 막연하게 기대하는 측면이 보이며 또한 object detector를 사용하게 되는데, 이 object detector가 오분류 하는 경우에 대한 방지 정책이 전무하다는 점이 아쉽습니다. 연산량이 많으 것으로 생각되지만 오히려 속도가 빠르다는 장점을 어필한다는 점 또한 놀라웠습니다. 매번 그래프와 관련된 여러 논문을 소개해주셔서 감사합니다.!!


전체 539
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 13642
관리자 2020.03.12 0 13642
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 12391
관리자 2020.03.12 0 12391
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 13318
관리자 2020.03.12 0 13318
536
[Paper Review] Safety Layers in Aligned Large Language Models: The Key to LLM Security (11)
Sunmin Kim | 2025.11.25 | 추천 0 | 조회 312
Sunmin Kim 2025.11.25 0 312
535
비밀글 [Rehearsal] 석사학위 논문심사 - 류승훈 (16)
관리자 | 2025.11.18 | 추천 0 | 조회 36
관리자 2025.11.18 0 36
534
비밀글 [Rehearsal] 석사학위 논문심사 - 손준영 (17)
Junyeong Son | 2025.11.18 | 추천 0 | 조회 41
Junyeong Son 2025.11.18 0 41
533
비밀글 [Rehearsal] 석사학위 논문심사 - 성시열 (18)
Siyul Sung | 2025.11.18 | 추천 0 | 조회 44
Siyul Sung 2025.11.18 0 44
532
비밀글 [Rehearsal] 석사학위 논문심사 - 남지훈 (19)
Jihun Nam | 2025.11.18 | 추천 0 | 조회 28
Jihun Nam 2025.11.18 0 28
531
비밀글 [Rehearsal] 석사학위 논문심사 - 천재원 (17)
Jaewon Cheon | 2025.11.18 | 추천 0 | 조회 40
Jaewon Cheon 2025.11.18 0 40
530
[Paper Review] Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data (14)
Suyeon Shin | 2025.11.18 | 추천 0 | 조회 344
Suyeon Shin 2025.11.18 0 344
529
[Paper Review] Fusionformer: A Novel Adversarial Transformer Utilizing Fusion Attention for Multivariate Anomaly Detection (14)
Sunghun Lim | 2025.11.07 | 추천 0 | 조회 339
Sunghun Lim 2025.11.07 0 339
528
[Paper Review] AXIS: EXPLAINABLE TIME SERIES ANOMALY DETECTION WITH LARGE LANGUAGE MODELS (13)
Hyeongwon Kang | 2025.10.29 | 추천 0 | 조회 620
Hyeongwon Kang 2025.10.29 0 620
527
Introduction to Discrete Diffusion Language Models. (15)
Jaehee Kim | 2025.10.24 | 추천 0 | 조회 626
Jaehee Kim 2025.10.24 0 626

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호