Review

BOARD

2020 NeurIPS - 김명섭

NIPS

작성자

Myeongsup Kim

작성일

2021-01-14 01:43

조회

946

올해 NeurIPS는 온라인으로 개최되었습니다. 평년과 같았다면 많은 비용을 지불하고 참여했어야 할 학회를 편한 공간에서, 적은 비용으로 들을 수 있어 좋았습니다. 제가 NeurIPS에서 청취한 발표 중 인상깊었던 발표는 다음과 같습니다.

 

[Heavy-tailed Representations, Text Polarity Classification & Data Augmentation]

해당 논문은 Poster Session에서 발표되었습니다.

자연어의 의미를 수학적인 방법으로 표상하는 것은 매우 중요한 주제입니다. 특히, 최근에는 자연어의 의미를 표상하기 위해 대용량의 Corpus를 기반으로 Embedding을 학습하는 방법들이 많이 사용되고 있습니다. BERT와 같은 Language Model 또한 이러한 흐름에 따라가고 있으며, 다양한 Downstream Task에 적절하게 적용될 수 있는 좋은 Embedding을 찾는 것은 자연어 처리의 중요한 주제 중 하나입니다. 하지만 최근의 Language Model을 기반으로 한 Embedding 방법들조차 단어들의 분포가 Heavy-Tail한 경향을 갖고 있다는 점을 반영하지 못합니다. Heavy-Tail이란, 특정 Corpus에서 가장 빈번하게 등장하는 단어들이 절대 다수의 출현 빈도를 보이는 경향을 말합니다. 해당 논문에서는 분포의 Tail에 집중하는 Extreme Value Theory (EVT)를 기반으로 한 다변량 극단 값 분석 Framework를 제안합니다. 자연어에서 매우 높은 발생 빈도를 보이는 “the”, “a”와 같은 단어 토큰 보다는, 극단 값으로 간주되는 Tail 영역의 경우 발생 빈도가 낮지만, 중요한 정보들을 다수 포함하고 있을 가능성이 높지만, 발생하는 빈도가 낮기에 잘 학습되지 않았을 가능성이 높습니다. 해당 논문에서는 이러한 Extreme Input을 이용한 Classification 성능을 향상시키는 방법을 제안합니다.

해당 논문에서 제안하는 방법의 이름은 Learning a Heavy-tailed Representation (LHTR)으로, BERT와 같은 Pre-trained Embedding을 사용합니다. LHTR은 우선적으로 Encoding Function을 사용하여 User-Specified Heavy Tailed Target 분포에 가까운 방식으로 Latent Code Z로부터 Marginal Distribution이 도출되도록 학습합니다. 이후, 해당 분포를 기반으로 학습된 Multi-Layer Perceptron에서 Classification Loss가 작아지도록 학습을 수행합니다. LHTR은 기존의 AutoEncoding과 달리, Gaussian 분포가 아닌, Heavy-Tail분포로부터 Latent Code Z가 추출되도록 합니다. Bayes Classifier의 관점에서, 단어 분포 상의 Bulk에 해당하는 부분의 Classifier와 Extreme에 해당하는 부분의 Classifier는 다른 형태를 보이게 되고, LHTR은 Bulk와 Extreme에 대해 각각 Classifier를 학습하여 결과적으로, 두 개의 Classifier를 학습합니다. 두 개의 Classifier의 Weight를 함께 최적화하는 과정에서, Bulk 부분과, Extreme 부분에 효과적으로 작동하는 Latent Vector인 Embedding을 학습할 수 있게 됩니다. 또한 Latent Vector Z를 이용하여 Sequence를 생성하는 Transformer Decoder를 학습하고, 이를 이용하여 Data Augmentation을 수행하는 GENELIEX를 함께 적용하였습니다. GENELIEX를 이용해 Tail 부분에 해당하는 단어들에 대해 적절히 Augmentation을 수행할 수 있게 되고, 이 때의 Label 역시 적절하게 보존됨을 실험적으로 보였습니다. 결과적으로 감성 분석 Task에서 높은 성능을 보였으며, 높은 정확도로 Label을 보존하는 Augmentation을 수행하였습니다.

전체 0

« 2020 대한산업공학회 추계학술대회 - 김명섭

2020 NeurIPS - 김형석 »

목록보기

전체 345

번호	제목	작성자	작성일	추천	조회
345	2025 한국데이터마이닝학회 하계학술대회 - 박시언 Sieon Park \| 2025.10.13 \| 추천 0 \| 조회 345	Sieon Park	2025.10.13	0	345
344	2025 한국데이터마이닝학회 하계학술대회 - 장진우 Jinwoo Jang \| 2025.09.13 \| 추천 0 \| 조회 227	Jinwoo Jang	2025.09.13	0	227
343	2025 한국데이터마이닝학회 하계학술대회 - 김한결 Hankyeol Kim \| 2025.09.05 \| 추천 0 \| 조회 275	Hankyeol Kim	2025.09.05	0	275
342	2025 한국데이터마이닝학회 하계학술대회 - 김선민 Sunmin Kim \| 2025.09.05 \| 추천 0 \| 조회 290	Sunmin Kim	2025.09.05	0	290
341	2025 한국데이터마이닝학회 하계학술대회 - 고재용 Jaeyong Ko \| 2025.09.05 \| 추천 0 \| 조회 254	Jaeyong Ko	2025.09.05	0	254
340	2025 한국데이터마이닝학회 하계학술대회 - 성시열 Siyul Sung \| 2025.08.31 \| 추천 0 \| 조회 309	Siyul Sung	2025.08.31	0	309
339	2025 한국데이터마이닝학회 하계학술대회 - 차수빈 Subeen Cha \| 2025.08.31 \| 추천 0 \| 조회 250	Subeen Cha	2025.08.31	0	250
338	2025 한국데이터마이닝학회 하계학술대회 - 이준기 Jungi Lee \| 2025.08.30 \| 추천 0 \| 조회 235	Jungi Lee	2025.08.30	0	235
337	2025 한국데이터마이닝학회 하계학술대회 - 김도윤 Doyoon Kim \| 2025.08.30 \| 추천 0 \| 조회 224	Doyoon Kim	2025.08.30	0	224
336	2025 한국데이터마이닝학회 하계학술대회 - 손준영 Junyeong Son \| 2025.08.30 \| 추천 0 \| 조회 316	Junyeong Son	2025.08.30	0	316

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호