번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10746
|
관리자 | 2020.03.12 | 0 | 10746 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9368
|
관리자 | 2020.03.12 | 0 | 9368 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10463
|
관리자 | 2020.03.12 | 0 | 10463 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (5)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 56
|
Minjeong Ma | 2025.06.07 | 0 | 56 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 36
|
Minjeong Ma | 2025.06.02 | 0 | 36 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 33
|
Kiyoon Jeong | 2025.06.02 | 0 | 33 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 32
|
Woongchan Nam | 2025.06.02 | 0 | 32 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 34
|
SangMin Lee | 2025.06.02 | 0 | 34 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (8)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 149
|
Siyul Sung | 2025.05.31 | 0 | 149 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (15)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 220
|
Woojun Lee | 2025.05.20 | 0 | 220 |
502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 201
|
Jinwoo Park | 2025.05.16 | 0 | 201 |
501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 187
|
Hun Im | 2025.05.15 | 0 | 187 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 335
|
Junyeong Son | 2025.05.08 | 0 | 335 |
이번 세미나는 크게 Text Augmentation의 목표와 난관, 그리고 어떻게 분류되어지고, 연구되어 지는가에 대한 전반적인 흐름과 주요 논문들을 다뤘습니다. 세미나를 듣기 전까지는 “이미지와는 다르게 단어를 하나를 바꾸더라도 문장의 의미가 바뀔 수 있는 텍스트를 어떻게 Augmentation을 하지?”라는 의문점을 가지고 있었습니다. 하지만 세미나 후 이에 대한 의문점이 해소되고 다양한 방법들로 Text Augmentation을 수행할 수 있다는 것을 배울 수 있었습니다.
Text augmentation의 접근법은 크게 Modification(변경)과 Generation(생성)이 있습니다. 변경 방법론 중 하나로 외부 데이터를 이용하지 않고, 4가지의 텍스트 편집 기법을 사용하여 텍스트를 증강키는 Easy Data Augmentation(EDA)에 대해 배울 수 있었습니다. 생성 방법으로는 Back Translation과 Conditional Pretraining을 활용하여 생성하는 방법이 있다는 것을 배웠습니다. 개인적으로는 적은 양의 bilingual 데이터를 가지고 번역기를 학습하고 이를 monolingual 데이터에 적용하여 인공데이터를 생성해내도록 접근한 방법이 매우 흥미롭게 느껴졌습니다. 아직 모르는 것이 많지만 세미나를 통해 읽어보고 싶은 논문들과 공부할 욕구가 생기는 유익한 시간이었습니다. 좋은 세미나 준비해 주셔서 감사합니다.
이번 세미나에서는 text augmentation에 대한 발표가 진행되었습니다. model을 generalize하기 위해서는 많은 데이터가 필요하지만 실제 데이터를 확보하는데는 이에 따른 비용이 발생하게 되는데, 이러한 문제를 해소해주는 방법인 data augmentation을 text에 적용시키는 방법들에 대해 알 수 있었습니다. text augmentation은 image에서와 달리 문법적 요소를 고려해야 하고, 표현의 변화된 정도를 정량적으로 평가하는데에 어려움이 있어 쉽지 않은 task임에도 활발한 연구가 진행되고 있었습니다. 소개해주신 text augmentation의 방법들 중 가장 쉬운 방법인 Easy Data Augmentation(EDA)이 내부 데이터를 이용한 단순 편집만으로 text modification을 수행했음에도 적은 데이터로 좋은 성능을 내는 model을 만드는 것을 보고 text augmentation의 필요성을 다시 한번 느꼈습니다. 이보다 발전된 방법으로는 번역기 성능 향상을 위해 입력 데이터로 학습한 번역기를 사용하여 monolingual 데이터를 번역하고, 이렇게 얻어진 bilingual 데이터를 목표 번역기를 학습하는데 사용하는 back-translation방법이 있었습니다. 마지막으로 소개해주신 방법은 pre-trained model을 사용하여 인공 데이터를 generation하는 방법이었습니다. pre-trained model 종류와 pre-training, generation방법에 따라 6가지의 text generation model을 알 수 있었습니다. 발표를 다 듣고 나니 개인 연구에서 back translation에 Gaussian noise를 추가하여 다양성을 늘리고자 하는 논리의 흐름도 이해할 수 있었습니다.
발표자님께서 text augmentation의 방법들을 난이도 순서로 자세히 설명해주셔서 천천히 따라갈 수 있었습니다. 또한 직관적인 시각자료를 제시해주셔서 이해에 많은 도움이 되었습니다. 감사합니다.
NLP 분야에도 augmentation 을 통해 여러 task 들의 성능 향상을 이루고자 하는데 이를 소개해주는 세미나였습니다. 관련하여 각 논문들에 쓰인 방법들과 세부 사항에 대해 분류하여 한 장표로 나타내었는데, 이를 표현하기 위해 깊은 이해와 많은 고민을 한 흔적을 간접적으로 느낄 수 있었습니다. Text modification 으로 인공데이터를 생성하여 추가적으로 학습을 할 때, 실질적으로 문법이나 의미가 무너져도 성능이 상승한다는 점이 신기하였습니다. Summarization 영역과 유사하게 text modification도 궁극적으로는 Back translation 을 통해 다양하게 표현할 수 있는 데이터를 생성하는 것이 목표가 아닌가 생각이 들었습니다. Translation, Summarization 등의 task에서 특히 Decoder 부분에 코드 구현과 세부적으로 작업할 사항이 많은데, 발표해주신 text augmentation 분야도 해당 부분에 많은 Trick을 준 것을 볼 수 있었습니다. Greedy search, Beam search, Random sampling, Top 10 sampling, Noise 부여를 소개해주었는데, Search 영역은 가장 좋은 문장을 찾는 최적점으로 간다는 표현이지만 Sampling이나 Noise 부여하여 문장을 생성한다는 것은 최적점 근처의 latent space 를 나타낸다고 생각하였습니다. 개인연구에서 continuous space 에서 noise를 주어 Token 레벨에서의 Discrete space의 random sampling 보다 더 의미가 있을 거라는 아이디어에 공감을 했습니다. 연구 결과는 큰 향상을 보이지 못했지만 빠르게 아이디어를 실행하는 능력 및 노력 등에서 졸업 전에 좋은 작품이 나오지 않을까 합니다.
금번 세미나에서는 text augmentation을 다루었는데, 이미지 분야에서의 augmentation은 평소에 많이 접했던 반면 텍스트 분야에서의 augmentation은 생소했기에 특히 관심이 갔습니다. 단순히 단어의 집합을 augmentation 하는 것은 어렵지 않겠으나, 문장의 경우 기존의 의미를 바꾸지 않으면서도 model의 성능을 높이기 위해 다양한 noise를 넣어줘야 한다는 것이 막막해 보였습니다. 그럼에도 같은 경우 직관적이면서도 합리적인 방식(Beam Search)으로 문장을 decoding하하여 인공데이터를 생성하고, 나아가 이런 데이터를 이용해 모델의 성능을 향상시켰다는 점이 인상 깊었습니다. 무엇보다 인공데이터가 사람이 생성한 bitext에 유사한 수준으로 성능을 학습시켰다는 점에서, monolingual 등 데이터가 부족한 환경에서 충분히 응용할 만한 테크닉이라고 생각했습니다.
는 pre-trained 모델을 이용해 data generation을 수행하는데, labeling된 학습데이터를 masking시켜 학습시키고 이를 이용해 같은 label의 인공데이터를 생성한다고 이해하였습니다. label을 이용하기 때문에 유사한 space에서의 generation이 진행되는 것 같은데, 앞선 논문도 마찬가지로 이런 방식의 generation이 모델의 성능을 향상시킬 수 있으나 문법적인 관점에서 분명히 원본 문장과 차이가 있을텐데 어떻게 성능 향상이 이루어지는 지는 아직 의문이 듭니다. 이에 대해서는 개인적으로 좀 더 리서치를 해봐야겠다고 생각합니다. 바쁜 시간에 이처럼 좋은 자료 만들어 주시고 명쾌한 세미나 진행해주셔서 정말 감사합니다.
NLP 분야에서는 word vector가 continuous 하지 않다는 특성때문에 augmentation이 매우 어렵습니다. 이러한 상황에서 가장 대표적으로 사용되어온 augmentation은 동의어 대체, 단어 변경, 순서 변경과 같이 이산적인 특성을 그대로 사용하는 방법입니다. 최근 연구실에서 자주 언급되는 back translation의 경우 text 생성(번역)을 통한 augmentation 방법으로 일반적으로 NMT에서 사용하는 beam search를 사용하는 것이 아니라 top-k sampling을 사용하고 있습니다. 이 이유를 저자들은 실제로 그럴듯한 문장을 생성하는 것보다 조금 망가진 문장을 생성하는 것이 performance 향상에 도움이 더 된다고 설명하고 있습니다. 이러한 점들을 종합할때 이산적인 특성을 살린 단어의 변형보다는 정규화가 더 도움이 많이 된다고 생각할 수 있을 것 같습니다. 그리고 이러한 이산적인 특성을 지닌 단어를 연속적인 공간에서의 변형으로 접근하는 개인연구는 매우 흥미로웠습니다. 꼭 좋은 결과 있으면 좋겠습니다.
발표자와 함께 연구를 수행하며 많은 것을 배우고 있습니다. 이번 발표로 자연어처리 분야에서의 data augmentation 방법을 더욱 체계적으로 익힐 수 있었습니다. EDA 논문은 간단한 네 가지 방법을 이용해 레이블이 적은 supervised learning 상황에서 높은 성능을 보일 수 있음을 보여준 논문입니다. 그리고 Understanding back-translation at scale은 back-translation 기법을 이용해 데이터를 증강시켜 번역 모델 학습에 이용한 논문으로 해당 방식은 굉장히 높은 성능을 보였습니다. 인상적이었던 부분은 beam search를 수행한 뒤 일부 글자를 masking하는 방법이 가장 성능이 높게 나온다는 것이었습니다. 일부분을 마스킹하고 이를 유추하는 번역기를 학습한다는 점에서 BERT의 masked language model 학습 방식과 유사하다는 생각이 들었습니다. 마지막으로 Data Augmentation using pre-trained transformer models는 텍스트 생성 모델을 이용하여 텍스트를 augmentation하는 방법을 제시했습니다. 항상 좋은 발표를 해주시는 발표자분께 감사드립니다!
이번 세미나는 김정희 석사과정의 Text Augmentation과 관련된 발표였습니다. Text Augmentation은 NLP 분야에서 데이터인 즉, 텍스트를 Augmentation을 의미합니다. 이미지에 대한 augmentation은 flip, crop 등 비교적 간단하게 수행할 수 있지만, 텍스트는 텍스트의 의도(label)을 보존하면서 augmentation을 수행해야하기 때문에 어려운 task라고 할 수 있습니다.
첫번째로 소개한 논문은 Easy Data Augmentation이라는 방법으로 text에서 단어를 유의어로 교체하거나 임의의 단어를 삽입, 단어의 위치를 변경, 삭제하는 등의 방법으로 text augmentation을 수행하는 논문입니다. 두번째로 소개한 논문은 backtranslation이라는 방법으로 monolingual한 데이터셋을 번역기를 통해 인위적으로 augmentation하는 방법입니다.
단순하게 생각했을 때 backtranslation으로 data augmentation을 했을 때, 성능이 좋게 나오지 않을거라 생각했는데, 실제 실험에서는 좋은 성능을 나타낸 것이 신기하였습니다. 발표에 대한 전반적인 흐름과 이미지를 통해 발표를 쉽게 이해할 수 있었습니다. 감사합니다.
금일 발표는 "Text Augmentation"이라는 주제로 진행되었습니다. 본 발표에서는 다양한 NLP 분야에 활용되어 성능을 향상시키는데 기여한 text augmentation과 관련하여 3가지 방법론이 소개되었습니다. 먼저 본 발표자가 방법론을 설명하기에 앞서 text augmentation의 다양한 방법론들을 스스로 정리한 장표를 보여주어 1차적으로 이해하는데 큰 도움이 되었습니다. 금일 소개된 3가지 논문 중 Understanding Back-Translation at Scale을 가장 흥미롭게 청취하였습니다. 과거 세미나에서 back-translation이 소개되었을 때 굉장히 간단한 방법으로 NLP task의 성능이 크게 향상해 매우 충격을 받았던 기억이 있어 1차적으로 본 논문의 제목을 보고 흥미를 느꼈고, 본 논문에서도 간단한 아이디어를 적용해 기존 back-translation을 발전시켜 더 재미있게 들을 수 있었습니다. 발표자가 다양한 논문들을 잘 소개해주어 생소한 분야 중 하나인 text augmentation에 대해 조금이나마 알게되는 시간이었습니다.
이번 세미나에서는 text augmentation을 하는 방법들을 설명하는 세미나였습니다. 처음에 왜 augmentation이 필요한지를 먼저 잡아주었고 text modification과 text augmentation으로 나눠지는 것을 알 수 있습니다. 세미나를 구성하는 논문은 총 3개로, Easy Data Augmentation, Back-translation, 그리고 pre-trained Transformer 형식을 사용하는 방법들이었습니다. 그 중에서도 back-translation 에 사용되는 여러가지 방법들을 자세하게 설명해주어서 이해가 잘 되었습니다. Back-translation에서 적절한 단어를 추출할 때 쓰이는 top-n sampling은 decoding 방법 중에서도 확률적으로 접근하는 방법으로서 text에만 국한되지 않고 다른 데이터를 decoding 할 때 유용할 것 같습니다. 향후 text augmentation 기법 중에서도 글의 의도와 뜻을 더 잘 살리는 모델들에 대한 연구가 기대가 됩니다. 감사합니다.
최근의 딥 러닝 모델들이 다양한 Task에서 높은 성능을 보이고 있으나, 이를 위해서는 많은 양의 Labeled Data가 필요합니다. 또한 Labeled Data를 생성하는 데는 많은 시간과 비용이 들게 되며, 이는 딥 러닝의 고질적인 문제로 볼 수 있습니다. 본 세미나에서는 이러한 문제를 해결하기 위한 Text Augmentation에 대한 전반적인 흐름을 소개해 주셨습니다.
Text Augmentation은 Image 분야에서 널리 사용되는 Augmentation과 동일하게, 데이터의 Label을 보존하며 다양성을 확보하는 Task입니다. 하지만 인간이 사용하는 언어가 Discrete하다는 점 때문에 Image 분야의 Augmentation을 그대로 사용하지 못하고 별도로 Text에 적용할 수 있는 Augmentation방법을 적용해야 합니다. 이러한 Text Augmentation 방법에는 크게 원본 데이터에 수정을 가하는 Text Modification과 원본 데이터를 학습한 뒤 새로운 Text Data를 생성하는 Text Generation 방법이 있습니다.
Text Modification에 관련하여서는, 단어 단위의 교체, 삽입, 위치 변경, 삭제를 이용하여 Classification Task의 성능을 높이는 Easy Data Augmentation (EDA)방법을 소개해 주셨습니다. 해당 방법은 데이터의 학습 없이 간단한 처리를 통해 모델의 성능을 높일 수 있다는 점에서 기여점을 가지지만, 큰 다양성을 확보하지는 못한다는 단점이 존재합니다.
이를 극복하고자 한 Text Generation 방법에는 크게 Back Translation과 Generative Method가 존재합니다. Back Translation은 번역기를 이용하여 Label을 유지한 채로 원본 Text Data를 타 언어로 번역한 뒤, 다시 원래의 언어로 재 번역하는 과정을 통해 다양성을 확보합니다. 이 때 많은 다양성을 주기 위해 상대적으로 큰 Beam Size로 Beam Search를 사용하며, 추가적으로 Noise를 가합니다. Back Translation은 현재 널리 사용되고 있는 Text Augmentation 방법으로, 적은 데이터를 이용해 모델의 성능을 향상시키는데 기여하고 있습니다.
추가적으로 세미나에서는 Generative Method 중 Conditional Pre-Training 방법에 대해 소개해 주셨습니다. 해당 방법은 Language Model 학습 시 Label을 함께 포함하여 학습을 진행하고, 해당 Label에 대해 생성을 하는 방식으로 Text Augmentation을 수행합니다. 하지만 원본 데이터의 Label을 보존하지 못하는 경우도 발생함을 실험을 통해 확인할 수 있었습니다.
Text Augmentation 분야의 동향과 다양한 Text Augmentation 기법에 대해 학습할 수 있는 유익한 발표였습니다. 좋은 발표 진행해주신 김정희 석사과정께 감사의 말씀을 올립니다.
NLP 쪽에도 적합한 방법을 통해서 Augmentation을 적용한다면 성능 향상이 충분히 이뤄질 수 있을 것이라고 생각합니다. 다양한 방법이 존재하는 것을 세미나 발표를 통해서 소개해주셔서 흥미롭게 들었고 개인연구 진행하시는 것도 좋은 결과 얻으시면 좋겠습니다.
금일 세미나시간에는 Text Augmentation이라는 주제로 김정희 학생이 세미나를 이끌어 주었습니다. 최근 연구실 세미나에서 Data augmentation이라는 키워드가 계속해서 반복적으로 등장하고 있는 가운데, 본 세미나에서는 그 중에서도 Text Augmentation의 개념과 대표적인 논문 3편을 소개하였습니다. 문서의 의도는 보존하면서 다양한 expression을 생성하여, 텍스트 도메인에서의 data augmentation을 수행하고, 이를 통한 데이터를 효과적으로 증가시켜 목표하는 task의 성능을 높이자는 것이 Text Augmentation의 목적이라고 이해를 하였습니다. 세미나 초반에 소개하고 슬라이드 기준 7-8page의 내용은 현재까지의 text augmentation 관련 연구들의 대표적인 특징과 상대적인 차이를 한눈에 파악할 수 있어 매우 도움이 되었습니다. Text Augmentation 방법론 중 하나인 back-translation을 설명하는 부분에서도 다양한 back-translation 방법에 따른 특징들을 친절한 시각화 예시를 통해 소개하는 부분이 인상적이었습니다. 끝으로, 2번째 세미나 발표임에도 불구하고 좋은 세미나시간을 채워준 발표자에게 감사의 인사 전합니다.
자연어처리에서의 augmentation이 왜 많이 없을까 고민하는 와중에 김정희 석사과정의 세미나를 감사히 들었습니다. 친절한 설명 덕분에 text augmentation이 크게 text modification과 text generation으로 구분된다는 점을 알았습니다. 각각 Easy Data Augmentation(EDA)과 Back Translation으로 대표되는데, 공통적인 목표는 텍스트 데이터의 label은 보존하면서 표현을 다르게 하는 것입니다. 각 방법으로 생성된 인공 데이터가 사람이 보기에는 문법적으로 다소 맞지 않는 부분이 있더라도 학습 시 성능 향상에 도움이 된다는 것이 인상깊었습니다. 아직 관련 논문을 읽어보지는 못했지만, 발표를 들으며 문장 또는 문법적인 구조보다 parameter space 내에서의 위치가 성능에 더 큰 영향력을 미치는 것인지에 대한 궁금증도 생겼습니다. 관심이 있는 분야이기 때문에 저 역시 해당 논문들을 읽으면서 의문점을 해결하고자 합니다.
무엇보다 개인연구에 대한 발표가 좋았습니다. 아이디어를 빠르게 검증하는 실행력과, 아이디어를 제안하기 위한 논리의 흐름을 구성하는 모습을 보고 자극을 많이 받았습니다. 항상 가치있는 세미나 시간을 만들어 주는 발표자분께 다시 한 번 감사드립니다.
자연어 처리에서 Data Augmentation 관련 되서 다양한 방법론들을 세미나를 통해 접했는데, 오늘 방법론은 생성모델에서 확률기반 Search, Sampling 관련 방법론이 있었습니다. 세미나를 들으면서 느꼈던 것은, 의미적인 부분은 유사하면서 문장의 구조, 순서, 다른단어 등 풍부한 데이터가 생성되는 것이 성능 향상에 좋은 것 같았습니다. 그래서 noise 값이 커질 때 더 다양한(풍부한) 문장들이 생성되는 것 같았습니다. 계속해서 머리속에 맴돌던 것은 지난번 Virtual Adversarial training 이였는데, 해당 논문에서 NLP 에 적용된 DA 효과였습니다. AdvT 에서 하려는 것이 실제 문장(의미가 같을것 같은)처럼 속일 수 있는 예시를 생성하는 것인데, 의도한 것이 앞선 방법론들과 유사하지 않나 생각이 들었습니다. 그래서 오늘 세미나 후 BERT 나 GPT 에 AdvT 을 통한 DA 에 대한 연구는 없는가 찾아보게 되었는데, 유사한 접근이 최근에 시도 되고 있는것 같습니다. 개인적으로 생각 할 때는 유사한의미를 가진 단어단위 에서 데이터 생성보다는 문장의 구조가 변형되는 문법적 요소까지 고려된 생성이 DA 관점에서 좋을 것 같은데, AR 관점에서 생성모델이 문법적 요소가 변형된 생성에 약점이 있지 않을까 생각합니다. 이런 이슈를 해결 할 수 있는 접근이 있다면 좋을 것 같습니다. 감사합니다.
이번 세미나에서는 원본데이터로부터 새로운데이터를 생성하는 데이터 augmentation에 대한 세미나였습니다. 텍스트에서 특정단어를 유의어로 교체, 임의의 단어를 삽입, 문장 내 임의의 두 단어의 위치를 변경, 임의의 단어를 삭제하는 방법이 있습니다. 제안된 새로운 방법으로 Conditional pre-training label의 정보를 input에 포함 시켜 pre-training 하는 방법을 설명해 주셨는데, prepend(label에 tokenizer를 적용하는 방법), expanded(label에 tokenizer를 적용하지 않는 방법) [sep] [sep]로 클래스에 관련있는 글을 생성하는 모델하였습니다. 개인적으로 Back-translation을 이용한 모델의 성능자체가 사람이 개입으로 모델 구조를 개선될 수 있는 부분인지 궁금점이 생기며 어려운 task인것 같습니다.
이번 세미나를 통해 text augmenation에서의 어려움과 이를 고려한 여러 인공 텍스트 데이터 생성 기법에 대해 배울 수 있는 시간이었습니다. 먼저, 이미지 data augmentation이 원본 이미지의 의미를 크게 손상하지 않는 것과 달리 자연어 데이터는 augmentation 시, 텍스트의 의미가 변화할 가능성이 높아 그 의도를 보존하는 것이 중요하다는 것을 알 수 있었습니다. 또한, 텍스트 증강기법이 크게 modification 과 generation 으로 나뉘고, random noise 를 추가하는 방법과 monolingul 데이터로부터 인공데이터를 생성하는 back translation 기법은 modification에 속하며, text generation은 pre-trained model 을 사용하여 인공데이터를 생성하는 방법을 포함함을 알게 되었습니다. 하나의 증강기법을 소개하고, 그 단점을 보완한 새로운 기법들을 연쇄적으로 소개하는 발표 흐름을 통해 text augmentation 에 대한 이해를 높인 유익한 시간이었습니다.
금일 세미나 시간에서는 더 나은 성능과 Overfitting을 방지할 수 있는 Augmentation 기법이 자연어처리 분야에서 어떻게 활용되는지 알 수 있는 시간이었습니다. Vision 분야에서 사용되던 Pretraining의 아이디어를 차용해서 만든 Text분야의 Pretraining과 다르게, 문제를 자연어의 특성(문법적 요소)에 맞게 해결하는 text modification과 text generation에 대하여 알 수 있게 되었습니다. 특히 이정훈 석사과정의 BERTSum 발표에서 언급했었던 Back-Translation의 Augmentation 기능에 대해, 세부적인 5가지 기법들을 알 수 있어 이론을 보강할 수 있었습니다. 또한 Classification 등과 같은 Fine-tuning에서 [CLS] token을 활용해 DownStream task를 사용하는 것이 아닌, 문장 Label을 Input에 넣어서 Generation의 성능 향상을 가져온 부분이 인상적이었습니다. 저는 영상으로 세미나를 접했는데 설명의 논리정연함과 깔끔함으로 아깝지 않은 시간을 만들어주심에 발표자분께 감사드립니다.
이번 세미나는 text augmentation을 주제로 진행되었습니다. 딥러닝 모델의 일반화 성능을 높이기위해서 augmentation이 필수이지만 text 분야에서 좋은 augmentation을 만들어내는것은 매우 어려운 task라고 생각했습니다. 발표자께서 언급해주신것 처럼 원래 문장의 의도가 변경되지않으면서 동시에 표현을 바꾸어 주는것은 정량적으로 평가하기 어렵기때문입니다. 크게 Text augmentation은 text modification과 text generation으로 나뉘는데, 오늘 중점적으로 다루었던것은 Text generation으로 분류되는 back translation이었습니다. 이정훈 학생의 세미나에서 본 개념을 이해하게되었는데, 다시한번 짚어주셔서 도움이 되었습니다.
제가 인상깊게 들었던 논문은 'understanding back-translation at scale' 이며 monolingual data를 번역기를 이용해 증강시키고 이를 학습데이터로 사용하여 성능을 향상시킵니다. 사실 중간 번역기를 가지고 학습데이터를 만들어내는 작업은 번역기에 의존적일수밖에 없습니다. 실제로 연구에 번역기를 사용한 경우 논문리뷰에서 타당성과 신뢰성에대해 공격을 받기도 하며, 가장 성능이 좋은 번역기를 사용한다해도 완벽한 데이터를 얻기엔 무리가있습니다. 하지만 번역기를 이용해 데이터셋을 증강하는것 자체로도 학습 성능을 높일수 있다는것이 인상적이었고 오히려 노이즈가 첨가된 것이 augmentation 측면에서는 일반화성능을 높일수 있는 근거가 되지않았나 생각했습니다.
발표자께서 전체적인 흐름을 잘 잡아주셔서 듣기 편했고, 개인연구도 재미있게 들었습니다. 감사합니다