[Paper Review] MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification

Paper Review
작성자
Hoonsang Yoon
작성일
2022-02-10 05:55
조회
2308
  1. 논문 제목:
    • MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification (Chen et al., ACL'20)


  2. 논문 Overview
    Semi supervised learning 는 소수의 Labeled Dataset / 다수의 Unlabeled Dataset을 수중에 갖고 있을 때, Unlabeled Dataset을 최대한 효율적으로 활용하여 모델을 학습시키는 훈련 기법이다.
    Semi supervised Learning의 방식은 다양하며, 그 중 본 세미나 시간에는 Text Classification에 활용된 모델인 MixText에 대해 살펴보고자 한다.MixText는 Vision 분야에서 데이터 증강의 방식으로 많이 활용하는 Mixup을 자연어 처리에 어떻게 반영할 지를 해소한다. 자연어의 가장 간단한 표상인 Discrete Representation은 두 문장을 섞는 것이 불가능하여 Mixup이 어울리지 않을 것 같지만, Hidden Representation Vector들로 혼합하면 두 문장과 그에 대한 Label을 섞는 것이 가능하다.
    이를 TMix라고 지칭하며, TMix와 함께 Label Guessing, Entropy Minimization 등 Vision 분야의 Semi supervised Learning인 MixMatch 기법과 전체적인 흐름은 유사하다.
  3. 참고 자료
    1. Unsupervised Data Augmentation for Consistency Training: https://arxiv.org/abs/1904.12848
    2. MixMatch: A Holistic Approach to Semi-supervised Learning:
      https://arxiv.org/abs/1905.02249
    3. ReMixMatch: Semi-supervised Learning with Distribution Alignment and Augmentation Anchoring:
      https://arxiv.org/abs/1911.09785
    4. FixMatch: Simplifying Semi-supervised Learning with Consistency and Confidence
    5. 이정훈 석사 MixMatch / ReMixMatch / FixMatch
      1. MixMatch: http://dsba.korea.ac.kr/seminar/?mod=document&pageid=1&keyword=mixmatch&uid=68
      2. ReMixMatch: http://dsba.korea.ac.kr/seminar/?mod=document&pageid=1&keyword=mixmatch&uid=248
전체 16

  • 2022-02-13 13:28

    이번 세미나는 MixText를 주제로 진행되었습니다. MixText는 NLP에서의 Semi-supervised Learning 방법론으로 비전에서의 Mixup의 아이디어를 차용하였습니다. Mixup은 두 이미지 샘플의 input과 label을 섞어 하나의 새로운 샘플을 만드는 방법입니다. 하지만 자연어의 경우 discreteness한 특성 때문에 두 샘플을 하나로 섞을 수 없습니다. MixText는 이러한 한계점의 해결책으로 샘플 자체를 섞는 대신에 hiden representation을 섞는 방법을 택하였습니다. 이러한 방법을 TMix라고 명명하고 두 BERT Encoder에 두 샘플을 입력값으로 하여 중간 layer의 hidden representation을 mixup하였습니다. 기존의 방법론들은 labeld와 unlabeld 데이터를 분리하여서 classifier를 학습했다면 TMix는 분리할 필요 없어 문장을 섞을 수 있으며, augmentation을 통해 무한히 새로 샘플을 생성할 수 있다는 장점이 있습니다. 원 데이터를 섞을 수 없으니 representation을 섞는다는 아이디어가 신선했으며, 발표를 듣는 동안 김명섭 석사과정의 연구와 굉장히 비슷하다라고 느껴져 약간은 반가운 내용이었던 것 같습니다. 좋은 발표 감사합니다.


  • 2022-02-13 16:32

    이번 세미나에서 다뤄 주신 논문은 “MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification”로 text data에 이미지 전용 augmentation 기법인 MixMatch을 적용한 논문입니다. SSL, Semi Supervised Learning은 소수의 Labeled 데이터로 모델을 학습시키는 훈련 기법으로, 다양한 방법들이 존재하게 됩니다. 먼저, 관련 배경지식인 UDA와 MixMatch를 설명해주셔서 이해하기에 수월했습니다. 세미나 들어주신 예시처럼 자연어는 Discrete한 특성을 가지고 있기에 두 단어(문장)을 섞는 것이 불가능하여 Mixup이 어울리지 않습니다. 하지만, 본 연구에는 단어들의 Textual Hidden Representation Vector(from BERT)들을 혼합(mixing)하여 두 단어(문장)과 그에 대한 Label을 섞는 것이 가능하도록 설정해주었습니다. 비전에서 MixMatch가 상당히 획기적인 기법이었던 것으로 기억하는데 이를 자연어의 embedding단에서 적절하게 적용을 한 흥미로운 논문이라고 생각합니다. 좋은 발표 감사합니다.


  • 2022-02-13 16:58

    금일 세미나에서는 MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification이라는 논문이 소개가 되었습니다. 본 논문에서는 이미지에서만 사용되던 Mixup 기법을 text에도 적용하고자 했으며, discrete한 공간이 아니라 continuous한 공간상에서 mixup을 수행할 수 있도록 모델을 고안합니다. 이를 위해 BERT Encoder를 사용해서 각 hidden representation의 가중합 벡터를 구하고 이를 mixup하여 mixup된 비율을 예측하고자 하였습니다. 추가로, labeled data에 대한 supervised loss와 unlabeled data에 대한 consistency loss를 모두 활용하여 semi-supervised learning을 진행했습니다. 이러한 기법을 통해 label/unlabeled 데이터에 상관 없이 무한히 augmentation을 수행하여 학습을 수행할 수 있었고, overfitting을 낮추는 효과가 있었습니다. MixMatch 기법을 text에 적용한 것이 본 논문이 처음이라는 점이 놀라웠고 아이디어가 참신해서 흥미롭게 발표를 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2022-02-13 23:43

    금일 세미나에서는 MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification 에 대해 살펴 보았습니다. MixText는 제목에서 알 수 있듯이 vision domain의 mixup을 text domain에 적용한 방법입니다. 다만 NLP는 본연적으로 이산적인 특성을 가지고 있기 때문에 이를 embedding space에서 진행합니다. 생각해보면 단어 자체에 augmentation을 진행하는 것보다 representation space에 적용하는 것이 훨씬 직관적이고 machine-friendly 한 방법입니다. 앞으로도 관련하여 재미있는 연구들이 많이 소개되면 좋을 것 같습니다.


  • 2022-02-14 13:12

    이번 세미나는 MixText 방법론을 제안한 논문에 대해 소개해주셨습니다. Mixtext는 이미지 데이터 셋에 대해 적용되고 있던 mixup 방식을 응용한 방법론인데, 이미지 데이터에서는 mixup 과정이 자연스러운 반면 텍스트 데이터의 경우 mixup을 그대로 적용하는 것이 논리적으로 불가능합니다. 본 논문에서는 이를 해결하기 위해 embedding vector에 대해 mixup을 실시하여 문제를 해결하였습니다. embedding vector에 mixup을 적용하여 효과를 볼 수 있다는 점이 놀라웠고 해당 방식이 가능하다면 입력 자체에 대한 augmenation이 아니라 딥러닝 모델의 중간 layer의 임베딩 벡터에 대한 조작을 통해 성능을 높이는 다른 방식 또한 고민해볼 수 있다는 생각을 하였습니다. 좋은 발표 감사드립니다.


  • 2022-02-14 13:15

    금일 세미나는 "MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification"라는 주제로 진행되었습니다. 본 발표에서는 text classification에 semi-supervised learning을 활용한 모델인 MixText가 소개되었습니다. 해당 방법론은 vision 분야의 대표적인 semi-supervised learning 방법론인 Mixup을 자연어 처리에 반영하였습니다. 이를 위해 MixText에서는 자연어의 hidden representation vector를 혼합하여 두 문장과 그에 대한 label을 섞는 방법을 제안하였습니다. 개인적으로 자연어의 discrete representation 특징으로 인해 문제가 되는 부분을 매우 논리적이고 쉬운 방식으로 해결했다는 생각이 들었습니다. 제 관심 분야인 시계열 이상치 탐지에서는 이미지 이상치 탐지와 다르게 semi-supervised learning 접근 방식이 적은데, MixText의 방법을 활용하여 시계열 이상치 탐지 분야에서도 Mixup을 적용해 볼 수 있게다는 생각도 들었습니다. 좋은 발표 감사합니다.


  • 2022-02-14 22:27

    금일 세미나는 컴퓨터 비전 분야의 mixup를 NLP에 적용한 연구 MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification에 대한 내용으로 진행되었습니다. 비전에서 사용되는 Mixup은 continuous한 특성을 가지므로, discrete한 text를 continuous한 embedding 공간으로 보낸 후 mixup을 수행합니다. 입력 토큰 자체를 augmentation하는 방법이 일반적으로 사용되었는데, embedding space 내에서 augmentation하여 좋은 성능을 달성한 것을 보면 layer 중간 output들을 활용하여 augmentation하는 방법들이 효과가 있는 것 같습니다. 최근 여러 세미나에서 semi-supervised learning 방법론을 소개해주셔서 관련하여 많은 내용을 알 수 있었고, 시계열 이상치 탐지 분야에서도 적은 양이지만 알고 있는 anomaly를 활용하면 더 좋은 성능을 달성할 수 있을 것이라는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2022-02-14 22:27

    이번 세미나는 text classification task를 풀기 위한 semi-supervised learning 기반의 방법론 MixText를 주제로 진행되었습니다. Semi-supervised learning은 label이 없는 unlabel dataset을 학습 시 효율적으로 활용하기 위하여 고안된 학습 방식으로 smoothness, low-density,manifold 등의 가정을 만족하는 상황에서 성능 향상을 이룰 수 있습니다. MixText는 vision 분야의 data augmentation 방법론인 Mixmatch를 배경으로 합니다. MixMatch는 unlabeled dataset에서 k번의 증강을 진행한 뒤 prediction average를 통해 임의로 라벨을 생성하고, 두 데이터 샘플의 input과 label을 섞어 하나의 새로운 데이터 샘플로 간주합니다. 해당 방식을 nlp에 적용해본다면, 두 문장을 섞어야 하는데 이때 hidden representation을 mixup 대상으로 합니다. 두 문장의 BERT representation을 산출하고 가중합을 적용하며 이때 representation power가 높은 layer의 hidden representation을 선택합니다. 데이터 샘플은 오로지 하나의 샘플 역할만 할 것이라는 고정 관념에서 벗어나 두 데이터 샘플을 mix하는 과정을 통해 새로운 데이터를 생성해내는 아이디어가 개인적으로 흥미롭고 신선하게 다가왔습니다. 실제 프로젝트에서 또 다른 증강 기법인 UDA를 활용하여 실험을 진행하고 있는데, MixText 역시 적용해볼만한 가치가 있지 않나 하는 생각이 들었고, 앞으로 nlp 분야의 augmentation 및 SSL 기법의 발전도 기대가 됩니다. 유익한 발표 진행해주셔서 감사합니다.


  • 2022-02-15 02:15

    이번 세미나에서는 이미지에만 적용되었던 Mixup 기법을 Text에 적용하는 것을 시도한 MixText가 소개되었습니다. 이름 그대로 이미지처리 분야에서는 서로 다른 두 이미지가 겹쳐진(Mix) 새로운 이미지를 이용하는 방법론인데 자연어처리 분야의 word embedding은 이산적이기 때문에 이미지 처럼 단순 합을 적용할 수 없습니다. 이에 word embedding 자체가 아닌 모델 에서 산출하는 hidden representation을 가중합하는 방법을 적용합니다. 이후에는 UDA와 같이 Supervised loss와 Consistency Loss를 구해 학습을 진행합니다. 이전까지 자연어처리 분야의 준지도학습 방법론으로 UDA에만 큰 관심이 있었는데 덕분에 새로운 방법론에 대해서 새로이 배울 수 있었습니다. hidden representation을 이용함으로서 연속적인 공간을 확보할 수 있었던 간단하지만 강력한 아이디어가 매우 인상깊었습니다. 재미있는 내용 준비해주셔서 감사합니다.


  • 2022-02-15 11:19

    이번 세미나에서는 NLP 의 Semi-supervised learning 방식으로 연구된 MixText 에 대한 내용이 소개되었습니다. MixText는 이미지 분야에서 mixup augmentation을 사용한 semi-supervised learning 연구였던 Mixmatch 의 NLP 버전으로 소개되었습니다. 학습의 전체 과정은 Mixmatch 와 유사하지만 discrete 한 자연어 입력데이터의 특성상 mixup augmentation 을 사용할 수 없기에 이를 hidden representation 에 적용합니다. 여러 layer 에서 mixup 을 사용하여 성능을 비교한 점과 비전 연구들에 비해 augmentation 이 다양하지 않은 NLP 에서 사용될 수 있는 새로운 augmentation 방법을 제안했다는 점에서 이후 후속 연구들에 계속 등장할 것으로 생각됩니다. Mixmatch, Fixmatch 등의 이전 연구방향에 맞게 MixText도 더 발전될 수 있다는 발표자분의 의견에 동의하며 앞으로 좋은 연구결과 기대하겠습니다. 좋은 발표 감사합니다.


  • 2022-02-15 20:23

    오늘 세미나는 "MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification"에 대한 논문을 소개해 주셨습니다. 기존 augmentation 방법론은 주로 Computer Vision에서 많이 제안되고 이후 NLP에 적용되는 방향인데 오늘 연구로 이와 비슷하게 Computer Vision에서 제안된 MixUp 방법과 같이 NLP에 적용해본 논문이었습니다. 그러나 NLP에서의 차이점은 Text를 그대로 섞을 수 없기 때문에 hidden representation을 기준으로 MixUp을 진행하였습니다. 이러한 방법은 꼭 NLP에만 적용되는 것이 아닌 역으로 Computer Vision에서도 다시 활용해 볼 수 있는 방법이 아닐까 라는 생각도 들었습니다. 오늘도 좋은 논문 소개해 주셔서 감사합니다.


  • 2022-02-15 22:05

    이번 세미나에서는 MixText라고 하는, 이미지에서 MixMatch가 있다면 이를 텍스트 분야에도 적용하고자 한 augmentation 방법론을 소개해주셨습니다. 사실 Text는 이미지와 다르게 discrete한 특성이 있기 때문에, augmentation을 어떻게 해야 하는지 에 대한 의문이 많았습니다. 본 논문에서는 text가 표현된 표상 공간, 즉 hidden representation을 가지고 MixUp을 수행하게 되며 말 그대로 굉장히 직관적인 방식의 augmentation이라고 볼 수 있을 것 같습니다. 토큰의 순서를 섞는다든지 하는 방식이 성능에 악영향을 미치는 등 NLP에서의 데이터 증강은 좀 더 다른 측면에서 생각해야 한다는 특성이 있어 더욱 흥미로운게 아닌가 싶습니다. 일본어를 곁들인 좋은 발표 감사하며, 다음에는 일본어를 제대로 읽어주셨으면 하는 아쉬움이 있습니다. 좋은 발표 감사합니다.


  • 2022-02-20 17:30

    금일 세미나는 MixText를 주제로 진행되었습니다. Vision에서 자주사용되던 image augmentation 기법들을 language에 맞게 적용하는 연구가 많은데, MixText또한 동일한 흐름 중 하나입니다. 최근 발표자분께서 semi supervised learning을 통해 효과적으로 text classification을 수행하기위해 노력하고 계신데, 꾸준히 해당분야를 공부하는 모습이 자극되었습니다 🙂

    MixText의 가장 큰 특징 중하나는 raw input이 아닌 embedding space에서 변형을 진행한다는 점입니다. 사실 저는 이러한 기법이 collapse를 가져올 수 있다고 생각하기 때문에 완전히 논리적이라 생각하지 않지만, 이러한 아이디어를 제안하고 실험하는 자체로도 좋은 연구라 생각하였습니다. language augmentation이 가장 어려운 이유는 그 의미를 훼손하게 될 경우 전혀 다른 데이터로 취급될 수 있다는 점인데, 엄밀하고 다양한 방법을 통해 효과적인 augmentation을 진행하는 것도 졸업 전 다루어보고 싶은 연구주제라 꾸준히 관심을 가지려 합니다. 좋은 발표 감사합니다.


  • 2022-02-24 16:29

    MixTEXT 관련한 주제로 세미나가 진행 되었습니다. 우선 세미나를 들으면서 처음 들었던 생각은 Adversarial example 을 data augmentation 관점에서 진행했던 명섭이 발표가 떠올랐습니다. 해당 세미나에서도 진행을 임베딩 space 에서 진행되었었는데, nlp 의 특성상 discrete 한 영역에서 조금의 변형이 완전히 다른 의미를 지니게 되는 이슈를 소개되었었습니다. 금일 세미나에서도 똑같은 이슈가 소개되었으며, augmentation 이 discrete 한 부분에서 실행하면 완전히 의미부분이 변경되기 때문에 embedding space 에서 진행되었던 것 같습니다.


  • 2022-02-25 09:13

    금일 세미나는 자연어처리 분야에서의 semi-supervised 기법에 대해 소개되었습니다. 이를 다룬 논문인 MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification에 대해 진행되었습니다. 본 연구는 mix-match등의 데이터 증강을 자연어 처리에서 어떻게 반영해줄 수 있을 것인지에 대해 진행되었습니다. 발표자분께서 언급해주신 것처럼 discrete representation을 갖는 자연어에 대해 어떻게 새로운 데이터들을 생성해낼 수 있는 지가 의문이었는 데, 본 연구에서 그 방법을 잘 다뤄준 것 같습니다. 역시나 discrete한 요소들을 continuous한 공간 안에서 해결해주기 위해, hidden representation을 활용하였습니다. 이를 기반으로 augmentation을 진행해 기존 SSL 기법에서 사용되는 Label guessing등을 적용해 학습을 진행합니다. 메인 contribution은 hidden representation을 이용해 augmentation을 진행하는 TMix기법인 것 같습니다. 이러한 포인트를 잡아, 직접 실험해서 성능을 이끌어낸 것이 참 대단한 것 같습니다. 발표자님의 좋은 발표와 자료 덕분에 SSL, label guessing 등의 개념을 더 자세히 잘 알게 되었습니다. 좋은 발표 감사드립니다.


  • 2022-02-09 22:09

    Mixmatch, Fixmatch 등의 match 시리즈를 이어 semi-supervised learning을 다루는 새로운 방법인 mixtext에 대해 소개해주셨습니다. 최근에는 별도의 pseudo label 없이 데이터의 representation 자체를 학습하는 pre-text task 및 self-supervised learning이 더 각광받는 것 같지만, semi- 관련 방법론 역시 참신하다고 생각되는 아이디어가 참 많은 것 같습니다. Mixtext는 자연어의 discrete한 특성 때문에 mixup을 그대로 적용할 수 없다는 현상을 지적하며 hidden representation 공간 내에서 mixup을 수행합니다. 간단한 방법임에도 불구하고 자연어 데이터셋에 대해서는 너무 늦게 등장한 것이 아닌가 생각도 들었습니다. 이는 반대로 말하자면 예쁘지 않은 현실 데이터에 존재하는 다양한 가정을 더하여 연구할 거리가 많다는 것을 의미한다고 생각합니다. 네이버에서의 후속 연구로 input representation에 적용하는 시도가 등장했던 것으로 기억하는데 관련하여 재미있는 연구들이 많이 이루어졌으면 합니다. 잘 들었습니다.


전체 504
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10506
관리자 2020.03.12 0 10506
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9114
관리자 2020.03.12 0 9114
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10228
관리자 2020.03.12 0 10228
501
New [Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning
Hun Im | 11:21 | 추천 0 | 조회 6
Hun Im 11:21 0 6
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (9)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 110
Junyeong Son 2025.05.08 0 110
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (13)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 141
Doyoon Kim 2025.05.01 0 141
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 257
Sunghun Lim 2025.04.24 0 257
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 194
Suyeon Shin 2025.04.21 0 194
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 211
Woongchan Nam 2025.04.16 0 211
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 410
Kiyoon Jeong 2025.04.16 0 410
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 419
Hyeongwon Kang 2025.04.09 0 419
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 420
Jaehyuk Heo 2025.04.02 0 420
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 415
Jaehee Kim 2025.04.02 0 415

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호