[2019.12.13 - 양우식 석사과정] Visual Commonsense Reasoning & VilBERT

Paper Review
작성자
관리자
작성일
2020-03-12 11:31
조회
5600
1. Topic

Recognition to cognition : Visual Commonsense Reasoning

Vilbert : Pretraining task-agnostic visionlinguistic representations for vision-and-language tasks

2. Overview

Visual Question Answering에 대한 두 개의 논문에 대하여 발표했습니다. 첫번째는 Visual Commonsense Reasoning Dataset 구축을 다룬 논문으로 기존의 Question과 이미지를 넘어서 Reasoning의 이유가 되는 논리적 이유, 즉 상식까지 학습하고자 구축된 데이터셋을 소개했습니다. 주요 contribution의 첫 부분은 객관식으로 구성된 질문과 답변을 구축하기 위해서 고품질의 오답을 구성하는 방식을 다루고 있으며 추가로 인간의 사고 과정을 Grounding-Contextualization-Reasoning으로 설명하고 딥러닝 학습 과정에 적합하게 반영하여 강건하고 높은 성능을 보였습니다.

두번째 논문은 VilBERT이며 최근 딥러닝 환경에서 대세가 되는 BERT기반 방법론을 VQA에서도 사용한 모델입니다.  Multimodal joint representation을 위해서 BERT와 유사한 방법론을 적용시켜서 멀티 모달에서의 높은 성능을 갖는 PreTraining 모델을 소개하고 있습니다.

3. 발표자료 및 발표영상

[1] 발표자료

[2] 발표영상(업로드 예정)

4. 참고문헌

[1]Zellers, Rowan, et al. "From recognition to cognition: Visual commonsense reasoning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[2]Lu, Jiasen, et al. "Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks." Advances in Neural Information Processing Systems. 2019.

전체 11

  • 2020-03-14 16:54

    이번 세미나는 "Visual Common Reasoning & ViLBERT" 라는 주제 아래 VQA 분야에 대한 두가지 논문을 양우식 석사과정이 발표하였습니다. VQA에서 VCR이 도출된 과정, 이에 필요한 가설들과 흐름을 명확하게 짚어주어서 발표의 흐름을 놓치지 않게되었던 좋은 발표였습니다.

    먼저 Visual common reasoning에서 단순히 Question and Answer만 찾는것이 아니라 이에 근거가 되는 정보를 함께 학습하면 인간의 상식 정보까지 학습할 수 있을것이라는 가정이 흥미로웠습니다. 이를 학습하기 위해 Adversarial matching을 통해 고품질의 오답을 구축하였습니다. 여기서 bipartite matching이라는 개념을 알게되었는데, 개인적으로 이 매커니즘이 optimization의 assignment problem과 network flow problem을 합친것과 동일하다는 생각을 했습니다. 고품질의 오답을 구축한 후 1) Grouding을 통해 이미지에서 object를 추출한 정보를 활용하여 질문과 정답의 근거를 생성하고(LSTM), 2) Contextualization과정을 통해 이미지, 질문, 답변을 이용하여 의미를 문맥화 하는데, 이때 어텐션 매커니즘을 활용하였습니다. 마지막으로 3) Reasoning & predict 과정을 통해 정답에 대한 근거를 학습하는 구조로 프로세스가 진행되었습니다. 실험 결과가 타 방법론들에 비해 매우 유의미하다는것이 인상적이었습니다. text와 image와 같은 다양한 데이터를 하나의 문제를 해결하기 위해 사용하는 테크닉은 VQA뿐만 아니라 다양한 task에서 활용되고 있는데, 저도 개인연구를 시작하게 될때 다양한 타입의 데이터를 사용해서 문제를 해결하고 싶다는 생각이 들었습니다.

    다음은 ViLBERT라는 논문이었는데, BERT는 정말 다양한 도메인에서 활용되는 강건한 모델이라는 생각을 다시금 하게되었습니다. 모델의 구조는 Linguistic stream과 image stream으로 진행되며 각 모델의 representation을 뽑은 후 co-attention transformer layer에서 각 modal이 추출한 representation이 서로 영향을 받으며 multi-head attention block의 인풋으로 들어가게됩니다. Masked multi-modal learning을 통해 detection model의 분포포화 mask된 이미지의 KL divergence을 최소화 하는 방향으로 학습이 이루어지고, predict과정에서 이미지와 텍스트가 알맞게 aligned 된지 판단합니다.

    마지막으로 취업과정에서 느꼈던 부분을 공유해주셨는데, 최근 스스로 많이 하고있던 고민이었기 때문에 큰 도움을 얻을 수 있었습니다.


  • 2020-03-16 17:18

    VQA 분야의 최신 논문을 공유하는 시간이었습니다.
    논문에서 풀고자 하는 현재 VQA의 문제점이 무엇인지 발표 초반에 명확하게 설명해주는 부분이 좋았습니다. 덕분에 이후의 발표를 편하게 들을 수 있었습니다. 전반적으로 BERT라는 모델이 참 넓게 사용된다는 것을 느낄 수 있었습니다.
    VCR에서는 기존 VQA의 데이터 셋이 가지고 있는 한계점을 완화할 수 있는 데이터 셋을 제안 했다는 contribution이 있습니다. 특히나 데이터를 생성하는 과정에서 고품질의 오답을 만들기 위하여 adversarial matching 을 사용한 부분이 재밌었습니다. 역시 다른 분야의 다양한 내용을 알고 있는 것이 아이디어를 떠올리는데 매우 큰 역할을 함을 알 수 있었습니다.
    ViLBERT 논문에서는 이미지와 텍스트를 함께 사용하기 위하여 co-attention transformer layer를 사용하였습니다. 논문의 가장 큰 contribution인 co-attention은 이미지 블럭의 key와 value를 text의 블럭에서 가지고 오며 text의 key와 value는 image에서 가지고 오는 구조 입니다. 아주 흥미로운 아이디어 였으며 성능 또한 좋았습니다.
    개인적으로 VQA는 어려운 분야인만큼 아직까지 발전 해야하는 영역이 많으며 그만큼 기회가 많은 분야라고 생각합니다. 앞으로도 여러 흥미로운 연구들이 나오지 않을까 생각합니다.


  • 2020-03-16 21:20

    이미지와 텍스트가 주어졌을 때 QA를 진행하는 VQA와 관련된 두 가지 논문을 주제로 양우식 석사과정이 발표를 진행했습니다. 첫 번째 논문은 VCR의 데이터셋을 만들기 위해 고품질의 오답을 adversarial matching 방법을 이용해 구축합니다. VQA중에서도 VCR은 상식 수준의 common sense를 함께 이용해 정답의 근거까지 제시하는 task입니다. 이는 기존의 VQA보다도 난이도가 높지만 훨씬 기여하는 바가 많은 task라고 생각합니다. 기존의 VQA는 어느 정도 활용 범위가 제한적이었지만 VCR은 활용할 수 있는 분야가 더 많을 것이라고 생각했습니다. 최근 화두가 되고 있는 XAI와 관련해서도 의미 있는 연구라고 생각했습니다.
    두 번째 발표한 논문은 ViLBERT로 BERT를 VQA에 적용한 연구였습니다. 본 논문에서는 이미지와 문장을 co-attention transformer로 함께 처리합니다. 지난 ICCV 학회 참석 당시 보았던 VideoBERT도 그렇고 BERT의 Pretrain방식이 자연어를 넘어 다양한 task에 적용되는 것을 보니 해당 방식의 효과가 뛰어나다는 것을 다시 한 번 느꼈고 다른 task에도 적극적으로 활용할 수 있겠다는 생각을 했습니다.


  • 2020-03-17 14:30

    금일 발표는 "Visual Common Reasoning (VCR) & VilBERT"라는 주제로 진행되었습니다. 그동안 양우식 석사과정의 발표를 통해 Visual Question Answering (VQA) 분야에 대한 연구 동향을 알아왔고, 오늘은 VQA에서의 단순한 대답뿐만아니라 대답에 대한 이유도 제공하는 VCR과 BERT를 활용해 VQA의 성능을 높인 VilBERT 총 2개의 논문에 대한 리뷰를 청취했습니다. 먼저, VCR은 사람이 정답을 판단하는 과정을 모방하여 해당 판단에 대한 근거가 존재한다는 것을 가정하고, 기존의 ‘질문-답변’에 ‘이유'까지 제공하는 모델입니다. 가중화 최대화 이분 매칭인 adversarial matching을 통해 고품질의 오답을 구축하는 과정을 기반으로 한 데이터 전처리 부분이 인상적이었습니다. 더불어 사람의 추론 방법을 모방하여 grounding -> contextualization -> reasoning 단계로 구축한 Recognition to Cognition (R2C) 모델의 구조도 인상 깊었습니다. 다음으로 R2C 모델에 이어 발표된 VilBERT는 Co-attention transformer block을 기반으로한 co-attention transformer layer를 제안하였고, 해당 layer는 question (NLP)와 visual (Image)에 대한 transformer 기반의 two-stream model이 도출한 feature에 대한 co-attention을 적용하는 역할이었습니다. 이러한 아이디어를 통해 baseline보다 확연히 높은 성능을 도출했고, 이를 통해 BERT의 위대함과 embedding의 중요성에 대해 다시 한 번 느끼게 되었습니다. 최근 다양한 분야에서 BERT가 적용되고 있는데, 제가 연구하고 있는 분야에도 적용해보면 좋겠다는 생각도 들었습니다.


  • 2020-03-24 20:57

    석사과정 양우식 학우의 VQA(Visual Question-Answering)분야에 대한 연구 세미나를 진행하였습니다. VQA는 이미지와(Visual) 그 이미지에 관련된 질문 텍스트(Question)가 주어지고 그에 해당하는 정답 텍스트(Answer)를 맞추는 Task입니다.
    이번 세미나에서 설명한 논문은 VCR과 Vil-Bert 총 2개의 논문에 대해 설명해 주었습니다.
    먼저, VCR은 정답을 판단하게 만드는 근거가 존재한다는 것을 전제로 기존의 ‘질문-답변’으로 이루어진 데이터 셋에 ‘이유'까지 제공한 부분과 성능향상을 위해 Adversarial Mathing방법을 통해 고품질의 오답을 구축한 부분이 인상적이었습니다.
    두번째 논문은 ViLBERT였는데, 해당 논문에서는 기존 Transformer모델을 이용하여 Co-attention transformer를 제안하였습니다. co-transformer block에서 제 생각은 서로 성질이 완전히 다른 데이터간의 혼합이 잘 반영이 되지 않을 줄 알았는데 서로 성질이 다른 데이터인 Visual과 Linguistic간의 attention을 혼합하여 성능을 높인 부분이 인상적이었습니다.


  • 2020-03-25 14:34

    세미나에는 불참 했지만 리뷰 토대로 작성된 저의 생각을 말씀드리려고 합니다. VQA는 일반적으로 난이도가 높은 테스크인 것 같습니다. 또한 학습 기법 또한 이미지와 텍스트 두가지를 다뤄야 하는 부분이기 때문에 다른 연구에 비해 2배의 노력이 필요하다고 생각됩니다. 제가 알기로는 VQA 모델이 정답을 내어줄때 참조하는 부분은 이미지보다 텍스트라고 알고 있습니다. 그만큼 대답을 결정해주는 feature가 텍스트에 기반으로 결정 되는 것 같은 데요. 이러한 부분을 텍스트 분야의 SOTA BERT를 활용해서 더욱 개선했다는 점이 인상깊은 것 같습니다. 하지만 예측할때 상대적으로 이미지 feature에 대한 중요도가 떨어지는 편인 것 같은데 이미지와 텍스트의 relationship에 대한 연구를 진행하면 이러한 VQA발전성이 있지 않을까 생각해 봅니다. 그리고 이러한 relationship을 연관지을 수 있다면 더 많은 application으로 사용될 수 있을 것 같습니다.


  • 2020-03-27 14:22

    석사과정 졸업 전 마지막 발표에서 내용 뿐만 아니라 본인이 취업 준비 과정에서 느꼈던 점들을 공유하여서 좋았습니다.
    VQA에서 의문을 가지고 사람이 문제 해결하는 방식으로 기계도 풀기를 원하는 VCR(Visual Common Reasoning)에 대한 task를 제시하였습니다. VQA에서는 질문-답변에 대한 task라면, VCR은 이와 더불어 이유까지 풀어야하는 task라 상대적으로 더 어렵다고 볼 수 있습니다. 논문에서 구축한 해당 데이터셋이 좋다는 것을 다양한 방법으로 어필하는데 그 중 인상 깊었던 점은 사람의 수고를 덜기 위해 Adversarial Matching 방법을 제안하고 이를 통하여 고품질 데이터셋을 생성한 것입니다. 본인의 방법을 제시하고 이를 통해 데이터셋을 검증하는 것이 신선하였습니다.
    두번째 논문으로 ViLBERT를 발표하였고 이미지와 텍스트를 함께 임베딩하기 위하여 co-attention transformer layer를 통해 학습하였는데, 이 때 각각 Key, value를 서로 교차시키며 co-attention을 부여하며 block을 쌓았습니다. 이미지를 query로 할 때 sequential하게 만들어주기 위해 특정크기로 잘라서 순서대로 넣었는고, 이런 방식이면 이미지 본연의 정보를 손실하지 않을까 생각하였습니다.
    연구실 뒷자리에서 대학원 생활을 열심히 보낸 발표자에게 축하의 인사를 남깁니다!


  • 2020-03-27 17:34

    Visual Question Answering task와 관련된 2개의 논문에 대해 양우식 석사과정이 발표를 들었습니다.

    첫번째로 발표는 Visual Commonsense Reasoning(VCR) 논문으로 CVPR 2019에 제출된 논문이었습니다. 기존의 VQA 태스크는 어떤 주어진 질문에 대해서 이미지 내에서 답을 찾아 답변을 출력하는 형태의 태스크인데 VCR 논문에서는 질문-답변 뿐만아니라 답변에 대한 근거까지 제시하고자 하는 연구였습니다. 이 문제를 해결하기 위해 고품질의 오답을 구축하는 Adversarial Matching 방법을 사용했다고 합니다. 이미지 처리에는 Resnet 을 사용했고, 추출한 정보를 활용하여 Grounding => Contextualization => Reasoning 세 단계를 거쳐 output 을 출력하는 구조였습니다.

    두번째 발표는 BERT 구조를 VQA task 에 적용을 시도한 연구였습니다. 이를 위해, 이미지와 문장을 같이 처리할 수 있도록 기존의 transformer 구조가 아니라, co-attention transformer 를 활용했다고 합니다. 또한 단어와 이미지 영역에 대해서 15%를 masking 을 하고, 이를 reconsturcting 하는 task 를 수행하면서 학습을 진행했다고 합니다. 실험 결과 ViLBERT가 기존의 VCR 논문에 비해 훨씬 더 높은 성능을 보여주는 것을 확인할 수 있었습니다.

    VQA task 에 대해서 현재 트렌드와 기술 수준을 알 수 있었고, 취업에 대한 조언도 해주셔서 유익한 시간이었습니다.


  • 2020-03-27 17:37

    VQA의 발전된 형태의 task인 VCR (Visual Commonsense Reasoning)과 관련된 세미나였습니다. VCR은 기존 VQA가 이미지, 질문을 가지고 정답을 찾아내는 것에서 그쳤던 것과 달리, 해당 정답의 근거까지 제시해야 하는 task로 그 난이도가 VQA보다 높습니다. 개인적으로 고품질의 오답 데이터를 만들어내는 방식이나 해당 논문에서 제시한 알고리즘보다 기존 VQA라는 task에 문제를 제기하고 이를 보완한 새로운 task를 제시한 것이 큰 contribution으로 느껴졌습니다. 좋은 저널이나 컨퍼런스에서 발표되는 논문들을 살펴보면 기존의 문제를 좋은 모델로 해결한 논문도 의미가 있지만 해당 분야에서의 목표를 달성하기 위해 문제를 새롭게 제시하는 연구들도 많은데, 그런 관점에서 저 또한 문제를 새로운 방향에서 바라보는 습관을 길러야겠다는 생각이 들었습니다.
    VCR 논문과 함께 소개된 ViLBERT는 이미지와 언어의 alignment를 학습시키는 모델로 얼마 전 ICCV에서 봤던 VideoBERT와 유사한 모델이었습니다. 최근 BERT가 추천시스템이나 이미지와 같은 다양한 분야에서 활발하게 활용되고 있는데, multimodal learning에도 활용되는 모습을 보니 BERT의 발전 방향이 더욱 기대되는 발표였습니다. 마지막으로 발표 후반부에 해준 취업과 관련된 조언도 도움이 되었고, 발표자께서 VQA 분야를 오랜 기간 연구한 만큼 졸업 후에도 좋은 연구 결과가 있기를 바라겠습니다.


  • 2020-03-27 17:39

    기존의 vqa에 대해 공부를 하고 있는 것을 알고 있었는데, 나아가서 vcr이라고 하는 해당 답에 대한 이유를 제공하는 연구여서 흥미로웠습니다. 특정 장면에 대해 question이 주어졌을 때 좋은 answer을 얻어내기 위해서는 모델이 잘 학습되어야 하는데, adversarial matching을 통해 고품질의 오답 데이터를 얻어내는 것이 해당 논문의 contribution중 하나였습니다. question과 문맥상 일치하는 answer를 찾도록 하면서, ground truth인 answer과는 다르도록 학습을 시켜서 고품질의 데이터를 생성해내는 것이었습니다.
    즉, 문맥적으로는 답안들이 어느정도 맞다라고 생각할 수 있으면서, 원래의 답과는 다르게, 그림의 답과는 다르도록 만들어내는 것입니다. 왜냐하면 원래의 답과 유사하게 내용이 구성된다면 답을 찾는 것에 대해 어려울 수 있고 그 설득력이 떨어질 수 있기 때문이라고 이해했습니다.
    그다음으로 소개한 ViLBERT에서는 Co-attention transformer 가 인상적이었는데, Visual stream과 linguistic stream을 따로 진행하는데 중간에 key값과 value값을 cross시켜서 진행하고 다시 transformer block을 거치는 과정이 생소했으나 사실 수학적으로는 어떤 의미를 가지는지는 좀 더 공부해봐야겠다고 느꼈습니다.
    추가적으로 취업에 관련된 본인의 경험을 바탕으로 도움이 되는 이야기를 해주어서 좋았습니다.


  • 2020-03-27 23:13

    이번 세미나는 양우식 석사 과정이 "Visual Common Reasoning" 그리고 VilBERT에 대해 발표해 주었습니다.
    인상 깊었던 점은 데이터 셋이 가지는 한계점을 인지하고 이를 해결하고자 했다는 것 입니다. 그 과정이 논리적이였는데 VQA의 경우 단순히 답을 맞추는 것이 중요한게 아니라 왜 그렇게 답변했는지 또한 중요합니다. 이에 착안해 논문에서는 기존의 질문과 답변으로 구성된 모델이 아닌 질문과 답변 그리고 그에 대한 이유까지 제공할 수 있는 모델을 구성할 수 있도록 데이터 셋을 제안 했습니다. 이 생각과 발상이 창의적이라고 생각했고 향후 연구 활동을 진행하는데 있어 좋은 참고가 될 것 같습니다.
    VilBERT 부분에서는 개인적으로 여기도 역시 BERT가 적용되었구나라는 생각을 하였고, co-attention transformer layer에 대한 부분이 흥미로웠습니다.
    VQA라는 연구 분야의 경우 앞으로 어느 수준까지 성능이 향상될 수 있을지 또 어떤 식으로 현실에 적용될지 참 관심이 많이가는 분야입니다. 양우식 연구원이 이제 졸업을하여 해당 발표는 들을 수 없다는 것이 아쉽지만 스스로라도 어떤 흐름으로 연구가 진행되고 있는지 꾸준히 지켜볼 것 같습니다.


전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15686
관리자 2020.03.12 0 15686
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14410
관리자 2020.03.12 0 14410
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15387
관리자 2020.03.12 0 15387
33
[Paper Review] Randomly Wired Neural Network For Image Recognition (9)
관리자 | 2020.03.12 | 추천 0 | 조회 2963
관리자 2020.03.12 0 2963
32
[Paper Review] Matching Networks for One Shot Learning (11)
관리자 | 2020.03.12 | 추천 0 | 조회 7030
관리자 2020.03.12 0 7030
31
[Paper Review] Addressing Semantic Drift in Question Generation For Semi-Supervised Question Answering (9)
관리자 | 2020.03.12 | 추천 0 | 조회 3237
관리자 2020.03.12 0 3237
30
[Paper Review] Large Scaled Graph Convolutional Networks (11)
관리자 | 2020.03.12 | 추천 0 | 조회 5476
관리자 2020.03.12 0 5476
29
[2019.12.13 - 양우식 석사과정] Visual Commonsense Reasoning & VilBERT (11)
관리자 | 2020.03.12 | 추천 0 | 조회 5600
관리자 2020.03.12 0 5600
28
[2019.12.06 - 최종현 석사과정] Graph-based Summarization (10)
관리자 | 2020.03.12 | 추천 0 | 조회 5293
관리자 2020.03.12 0 5293
27
[2019.12.04 - 이정호 석박통합과정] BERT4Rec : Sequential Recommendation with Bidirectional Encoder Representations from Transformer (11)
관리자 | 2020.03.12 | 추천 0 | 조회 9038
관리자 2020.03.12 0 9038
26
[2019.12.04 - 노영빈 석사과정] How Multilingual is Multilingual BERT? (11)
관리자 | 2020.03.12 | 추천 0 | 조회 8400
관리자 2020.03.12 0 8400
25
[2019.11.19 - 천우진 석사과정] Next Item Recommendation with Self-Attentive Metric Learning
관리자 | 2020.03.12 | 추천 0 | 조회 4155
관리자 2020.03.12 0 4155
24
[2019.11.15 - 김동화 박사과정] Semantically Equivalent Adversarial Rules for Debugging NLP Models
관리자 | 2020.03.12 | 추천 0 | 조회 4607
관리자 2020.03.12 0 4607

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호