[Paper Review] Matching Networks for One Shot Learning

Paper Review
작성자
관리자
작성일
2020-03-12 11:32
조회
7031
1. Topic

Matching Networks for One Shot Learning

2. Overview

현실에서 Limited data 에 대해 Data augmentation, Unsupervised learning, Transfer learning, Meta learning 등의 다양한 방법들을 통해 제약된 상황을 해결하려고 합니다. 이에 대한 설명과 함께 메타러닝의 방법론들을 먼저 소개하였습니다. 또한, 현재까지 핵심적인 모델들과 관련한 모델들에 대한 실험 결과를 나타낸 논문을 간략하게 소개하고, 이후 milestone 이라고 할 수 있는 거리기반의 메타러닝 방법인 Matching Networks for One Shot Learning 을 소개하였습니다. 해당 논문은 크게 3가지 관점에서 contribution이 있습니다. 먼저 거리 기반 모델을 제시했다는 점, 이후 대부분의 메타러닝에서 쓰이는 학습 방법인 Episode training을 제시한 점, miniImageNet의 본인들이 가공한 데이터를 제공한 점입니다.

3. 발표자료 및 발표영상

[1] 발표자료

[2] 발표영상



4. 참고문헌

[1] Vinyals, O., Blundell, C., Lillicrap, T., & Wierstra, D. (2016). Matching networks for one shot learning. In Advances in neural information processing systems (pp. 3630-3638).

[2]  Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. A closer look at few-shot classification. In International Conference on Learning Representations, 2019.

[3] Snell, J., Swersky, K., & Zemel, R. (2017). Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems (pp. 4077-4087).
전체 11

  • 2020-03-14 16:53

    이번 세미나는 "Matching Networks for One shot Learning" 을 주제로 진행되었습니다. 얼마전 개최되었던 ICCV 에서 가장 많이 봤던 제목 중 하나가 "N- shot learning"에 대한 내용이어서 관심이 있던 찰나 세미나에서 관련 논문을 접하게 되어 흥미롭게 들을 수 있었습니다. 세미나때 소개한 논문은 Matching network로 one shot learning에 대한 연구였습니다. 먼저 이 연구의 가장 중요한 컨트리뷰션은 적은양의 데이터만 가진 제약상황을 타개하기 위해, episodic training을 진행하여 test환경과 동일한 train 환경을 구성하여 일반화 성능을 높이는것입니다. 또한 논문에서는 레이블데이터가 부족한 경우 레이블의 코사인 유사도를 활용하여 비슷한 레이블을 찾았지만, 이에 문제점을 제기하고 개인연구에서 distance를 변경하여 실험을 진행한것이 인상깊었습니다. sampling관점에서 세웠던 가정을 만족시키기위해 다양한 실험을 진행한다면 매우 유의미한 결과를 얻을 수 있을것이라 생각했습니다.


  • 2020-03-16 17:19

    zero-shot, one-shot, few-shot learning과 같은 연구들이 활발하게 연구되는 이유는 labeled data의 cost 때문 입니다. Deeplearning의 복잡한 구조를 학습하기 위해서는 데이터가 풍부하게 있어야 하는데 현실적으로 양질의 데이터는 매우 비싸기때문에 깊은 구조의 신경망 모델을 사용하지 못하는 경우가 많습니다. 이러한 제약
    속에서 unsupervised, semi-supervised, 그리고 self-supervised learning과 같은 방법론들 또한 N-shot learning과 마찬가지로 여전히 많은 필요에 의해 연구되어지고 있습니다.
    오늘 발표는 가장 대표적인 few-shot learning 방법론인 Matching Net에 관한 것이였습니다. Matching Net은 상당히 직관적인 아이디어로 위 문제를 완화하는 방법론을 제안하였습니다. 방법론은 이미지들의 유사도를 판별하는 것으로 크게 어려움이 없었으며 개인적으로는 읽으면서 저자들이 제공하는 그림이 로직을 이해하는 데 큰 도움을 줄 수 있음을 배운 논문들 중 하나였습니다.
    꼭 N-shot learning이 아니더라도 label이 부족한 상황에서 performance를 향상시킬 수 있는 연구는 매우 흥미롭고 꼭 필요한 분야라는 생각을 다시금 하였습니다.


  • 2020-03-16 21:21

    Few shot learning은 데이터의 개수가 매우 적은 데이터셋에 대해 학습을 진행하는 것입니다. 본 발표에서는 이러한 상황에서 어떤 전략들을 사용하는지와 이에 관한 최근 논문인 Matching network for one shot learning을 소개합니다. 해당 논문에서는 데이터를 Support set과 Batch set으로 나눠 둘 간의 유사도를 증가시키도록 학습을 진행합니다. 유사한 데이터 간에는 유사도가 높도록 학습이 된다면 테스트 시 해당 데이터에 대하여 label이 있는 데이터들 중 가장 유사도가 높은 데이터의 label을 부여합니다. 개인적으로 레이블이 부족한 상황에 대처하기 위한 데이터 augmentation 방법에 대해 관심이 많아 공부를 하고 있는데 해당 논문과 같은 방식도 있다는 것을 깨달을 수 있던 좋은 시간이었고 추후 개인연구에 적용할 수 있는 아이디어를 많이 얻을 수 있었습니다.


  • 2020-03-24 20:41

    [이정호]
    메타러닝에 대해서 최근 다른 세미나에서도 설명이 되었고, 휴리스틱 방법론 중에서, 파라메터 수렴을 통해 진행되는 알고리즘들을 들으면서 관심을 가지고 있었습니다. 우선적으로 제가 zero-shot few shot에 관해 큰 관심을 가지고 있었는데, 관련된 문제에서 어떤 연구들이 진행되고 있는지, 어떤방법으로 접근하는지 알 수 있는 세미나 였습니다.
    개인연구의 흐름은 label 이 one hot 으로 있기때문에 유사한 라벨을 찾아내고, 그중에서 구별이 잘 안되는것을 더 학습을 하는 방향으로 진행하고자 했는데, 애매한 것을 더 잘 구별할 수 있는 학습이 되기 때문에, 저 또한 좋은 방향으로 진행되지 않을까 생각했습니다. 샘플링을 하는 과정에서 값자체를 비교 했을때 uniform 분포와 큰 차이가 없었는데, 좀 더 실험을 해 보면 좋은 방법론으로 발전 할 것 같습니다


  • 2020-03-24 20:55

    이번 세미나는 박중민 석사과정의 One Shot Learning에 대한 발표였습니다. One Shot 또는 Few Shot Learning은 학습 시킬 데이터 즉, 레이블 된 데이터의 개수가 매우 적은 데이터셋을 가지고 학습을 시키는 상황을 의미합니다. 이러한 Few-shot learning 태스크를 'N-way K-Shot 문제'라고 합니다. 여기서 N은 클래스의 개수를 말하고 K는 각 클래스별 샘플의 개수를 말합니다. 퓨샷 러닝 태스크에서 일반화 성능을 높이기 위해 메타 러닝(Meta Learning)을 Episodic Training이라는 방식으로 학습 시켜 줍니다.
    이번 세미나에서 단어만 들어 봤던 few-shot learning과 meta learning에 대해 알게 되어서 좋았습니다.


  • 2020-03-25 14:33

    label이 없는 데이터에 대해서 episode training을 구현한 것이 인상 깊었습니다. 테스트 셋과 유사하도록 데이터를 재구성하는 방법이며, support set을 각 클래스별로 데이터를 균등하게 샘플링하고 가중치로 연결된 batch(training set)로 예측해서 loss를 계산 및 업데이트 하는 방식인것 같습니다. support set의 정보를 attention하여 batch set에 반영해 주는 방식은 기존 텍스트 분야에서 차용한것 같습니다. prototypical 각 클래스의 중심간의 거리를 구해 loss로 반영한점이 각 클래스에 대한 topological한 방법인것 같다고 생각했습니다. 해당 방법론은 imbalanced한 부분에서도 성능향상을 기대할만한 특징을 가지고 있는것 같습니다. 나와 다른 분야라고 배제하기보단 다른 분야에서도 배울점이 있다는 것을 깨닫게 해주는 좋은 발표였습니다. 테스트 데이터를 inference할때 사용되는transductive learning과 잘 엮으면 좋은 연구방향이 잡히지 않을까 조심히 생각해봅니다.


  • 2020-03-25 18:14

    일반적으로 딥러닝에서의 성능은 많은양의 데이터를 기반으로 수많은 파라미터를 학습할 수 있는데서 기인합니다. 하지만, 그러한 데이터의 수가 제한적인 상황에서 Zero or Few-shot Learning 등 을 통해서 소량의 데이터 만으로도 충분한 성능을 보여주고자 하는 연구가 계속해서 진행되어 오고 있습니다.
    금일 박중민학생이 소개한 Matching-Net 역시 이러한 연구중 하나입니다. 해당 발표에서 Few-shot Learning 도메인에서의 서포트셋과 쿼리셋을 통해 학습됩니다. 이를 통해 모델은 단순히 기존의 딥러닝 모델처럼 분류모델의 가중치만을 훈련하지 않고 (적은 데이터로 인한 과적합이 발생) 각 에피소드 별로 같은 범주의 데이터는 서로 가깝게, 다른 범주의 데이터는 서로 멀어지도록 feature space를 학습하며, 해당 feature space에서의 쿼리 데이터들은 가장 가까운 서포트 데이터의 것으로 결정하게된다. Matching Networks에서는 최근접 선택법을 미분 가능한 형태로 제안하여, 앞서 언급한 특징 추출기가 스스로 데이터간의 거리를 표현하도록 학습한 방법론이라고 저는 이해하였습니다.
    사실 그동안 많은 접점이 없었고, 관심이 부족했던터라 이쪽 도메인에서의 few-shot learning 그리고 domain(task) adaptation 등의 이해가 아직 부족하다고 생각합니다. 이번 기회를 들어 해당 분야의 milestone 논문들을 이어 읽어보고자 합니다. 좋은 발표를 해준 박중민 학생에게 감사합니다.


  • 2020-03-27 17:35

    박중민 석사과정의 Matching Network for One Shot Learning 에 대한 세미나 발표를 들었습니다.

    먼저, 일반화 성능을 높이는 모델을 만들기 위해서는 양질의 품질을 가지는 대량의 데이터가 필요한데, 이러한 데이터는 현실적으로 구하기 힘든 것이 현실입니다. 인간은 몇 개의 사진만 보고도 해당 Label 에 해당하는 객체들을 잘 구분해낼 수 있는 반면, 인공지능 모델의 경우 이러한 일반화 성능을 보장하기 힘든 문제가 있습니다. 따라서 제한된 데이터 셋을 활용하여 일반화 성능이 높은 인공지능 모델을 만들고자 하는 시도로, few-shot learning 등이 최근 많이 연구되고 있다고 합니다. 해당 부분에 대해서 잘 설명해주셔서 이해하기 편했습니다.

    본 논문에서는 One-shot Learning 을 위한 학습 전략으로 기존에 Batch training 방식 대신에 학습 데이터를 Support set 과 batch set 으로 구분하여 testing 단계와 유사한 에피소드를 구성하는 episode training 전략을 사용한 것이 핵심 부분인데, 이 부분이 가장 흥미롭게 느껴졌습니다. 정확히 논문을 다 읽어보지 않아서 완벽히 이해하지는 못 했지만, 해당 전략을 다양한 분야에 적용하는 것도 가능할 것이라고 생각이 되기 때문에 추후 조금 더 살펴 봐야겠다는 생각이 들었습니다.


  • 2020-03-27 17:36

    딥러닝 모델의 실적용 시 주요 이슈 중 하나는 정답 라벨이 항상 부족하다는 점입니다. 오늘 발표 논문인 은 정답 라벨이 매우 한정적으로 존재하는 상황에서 타 데이터를 이용하여 수행하고자 하는 과제의 성능을 높이는 방법론을 제안하였습니다. Matching Network는 쉽게 설명하면 support set과 batch set의 feature 유사도를 학습하는 모델입니다. 만약 support set의 개별 instance가 batch set의 instance와 같은 라벨을 가진다면 feature 유사도가 높게 산출될 것이고, 반대의 경우에는 유사도가 낮게 산출될 것입니다. test 시에는 정답을 알고 있는 data와 알고자 하는 data의 feature 유사도를 비교하여 가장 유사도가 높게 나타나는 라벨로 분류를 수행합니다. 최근 대우조선해양 프로젝트나 여러 연구를 진행하면서 라벨이 부족하다는 것이 많은 부분에서 문제가 되고 있는데, 이러한 방법론을 적용한다면 일정 부분 문제를 해소할 수 있지 않을까 하는 생각이 들었습니다. 추가로 Matching Network를 기반으로 하는 최신 방법론에 대해 살펴봐야겠다는 생각이 들었고, 현재 대우조선해양 프로젝트에 적용 중인 domain adaptation과 meta learning 등의 관계에 대해서도 살펴볼 계획입니다.


  • 2020-03-27 17:40

    N Shot Learning에 대한 설명을 시작으로 발표가 진행되었습니다. 작년에 Zero shot learning 에 대한 내용들을 많이 들어왔고 one shot learning에 대해서도 여러 연구들이 진행되고 있음을 알 수 있었습니다. 그런데 few shot learning에 대한 내용은 처음 들었고, 이들의 차이점을 기준으로 그림을 통해 자세하게 설명해주어서 개념을 이해할 수 있었습니다. 발표 논문인 Matching Network에서는 학습 데이터셋을 support set과 batch set이라고 하는 부분으로 나누어서 피처간의 관계를 반영하여 학습을 했습니다. domain adaptation이나 transfer learning이 떠오를 수 있는 개념이었고, 실제로 one shot learning를 목표로하는 것이었습니다. 레이블을 구할 수 없는 상황에서 좀 더 잘 학습하기 위해서 여러 모델들, 연구들이 나타나고 있는데 이들을 이해하고 새로이 다가가기 위해서는 수학적인 베이스도 중요하다고 느꼈습니다. 개인 연구 부분에서는 피처들과 동떨어진 피처들을 좀 더 샘플링해서 성능을 키우고자 하였는데, 제가 생각하기에는 각 피처별로 distance 정보를 합쳐버리면 피처간의 거리정보가 뭉개진다고 생각이 들었습니다. 이를 좀 반영할 수 있도록 다른 방식을 취하면 좋은 결과가 나타날 수도 있지 않을까 생각해보았습니다.


  • 2020-03-27 23:12

    머신러닝이 가지고 있는 근본적인 한계점을 해결할 수 있는 연구라고 생각됩니다. 따라서 개인적으로 어떤 측면에서는 가장 가치가 높은 연구 분야라고 생각합니다.
    결국 few-shot learning은 데이터의 부족(labeled data)을 해결하여 그런 현실적인 한계가 있는 상황에서 양질의 모델을 개발할 수 있도록 합니다. 오늘 소개해주신 논문이 Matching Net의 경우 제목에서도 알 수 있듯이 labeled image data가 부족한 상황에서 이미지들간의 유사도를 통해 그 한계를 극복하는 것이 주요 아이디어입니다.
    문제 상황이 명확하고 이를 해결하는 아이디어가 직관적이여서 이해하기 쉬웠습니다. 앞으로 연구가 발전하여 어떤 기발한 방식으로 이 문제에 대해 해결해나갈지 기대가 됩니다.


전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15686
관리자 2020.03.12 0 15686
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14410
관리자 2020.03.12 0 14410
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15387
관리자 2020.03.12 0 15387
43
[Paper Review] Question Generation with BERT, GPT2 (12)
관리자 | 2020.03.13 | 추천 0 | 조회 6292
관리자 2020.03.13 0 6292
42
[Paper Review] Graph-BERT : only attention is needed for learning graph representations (10)
관리자 | 2020.03.12 | 추천 0 | 조회 7011
관리자 2020.03.12 0 7011
41
[Paper Review] Single Document Summarization & Graph Attention Networks (13)
관리자 | 2020.03.12 | 추천 0 | 조회 3775
관리자 2020.03.12 0 3775
40
[Paper Review] Adversarial Training Methods for Network Embedding (9)
관리자 | 2020.03.12 | 추천 0 | 조회 4486
관리자 2020.03.12 0 4486
39
[Paper Review] Episodic Memory in Lifelong Language Learning (13)
관리자 | 2020.03.12 | 추천 0 | 조회 4023
관리자 2020.03.12 0 4023
38
[Paper Review] Session-Based Recommendation with Graph Neural Networks (13)
관리자 | 2020.03.12 | 추천 0 | 조회 7162
관리자 2020.03.12 0 7162
37
[Paper Review] Multimodal Transformer for Unaligned Multimodal Language Sequences (9)
관리자 | 2020.03.12 | 추천 0 | 조회 6980
관리자 2020.03.12 0 6980
36
[Paper Review] Optimizing Instance Selection for Statistical Machine Translation with Feature Decay Algorithms (10)
관리자 | 2020.03.12 | 추천 0 | 조회 3069
관리자 2020.03.12 0 3069
35
[Paper Review] Adversarial Defense via Learning to Generate Diverse Attack (11)
관리자 | 2020.03.12 | 추천 0 | 조회 3235
관리자 2020.03.12 0 3235
34
[Paper Review] MixMatch : A Holistic Approach for Semi-Supervised Learning (11)
관리자 | 2020.03.12 | 추천 0 | 조회 8854
관리자 2020.03.12 0 8854

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호