번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11394
|
관리자 | 2020.03.12 | 0 | 11394 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 10031
|
관리자 | 2020.03.12 | 0 | 10031 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 11104
|
관리자 | 2020.03.12 | 0 | 11104 |
512 |
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (2)
Sieon Park
|
2025.07.14
|
추천 0
|
조회 39
|
Sieon Park | 2025.07.14 | 0 | 39 |
511 |
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (2)
Subeen Cha
|
2025.07.10
|
추천 0
|
조회 66
|
Subeen Cha | 2025.07.10 | 0 | 66 |
510 |
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon
|
2025.06.27
|
추천 0
|
조회 239
|
Jaewon Cheon | 2025.06.27 | 0 | 239 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 344
|
Minjeong Ma | 2025.06.07 | 0 | 344 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 38
|
Minjeong Ma | 2025.06.02 | 0 | 38 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 35
|
Kiyoon Jeong | 2025.06.02 | 0 | 35 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 35
|
SangMin Lee | 2025.06.02 | 0 | 35 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 434
|
Siyul Sung | 2025.05.31 | 0 | 434 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 374
|
Woojun Lee | 2025.05.20 | 0 | 374 |
금일 발표는 "Mutilingual BERT is Not Enough"라는 주제로 진행되었습니다. 본 발표에서는 Monolingual 모델 대비 Mutilingual 모델의 성능이 하락하는 원인을 크게 Cross-lingual transfer learning과 linguistic typology 2가지로 나누었고, 각각에 대한 여러 논문들이 소개되었습니다. 먼저 cross-lingual transfer learning은 labeled 데이터가 상대적으로 풍부한 언어의 데이터를 이용하여 labeled 데이터가 희소한 언어에 대한 성능을 보완하는 것으로 이와 관련하여 총 4개의 논문이 소개되었습니다. 뒤이어 여러 언어들을 조사하여 특정 기준을 바탕으로 그 유형을 분류하는 연구 분야인 Linguistic Typology와 관련해서는 언어간 구조 차이로 인해 발생하는 multilingual 모델의 성능 하락에 대해 언급하였고, 개인적으로 이 부분이 cross-lingual transfer learning보다 새로웠습니다. 개인적으로 NLP 분야는 자세하게 follow-up을 못하고 있는데, 금일 발표에서 다양한 논문들에 대해 접하며 작게나마 NLP 분야에 대한 지식을 얻을 수 있어 유익했습니다.
이번 세미나는 Multi-lingual BERT의 단점을 들며 이를 해결하는 새로운 방법론을 제안하는 논문에 대한 세미나였습니다. 기존의 cross-lingual transfer learning에서는 언어의 특성을 고려하지 않은 채 영어-스페인어/영어-한글 이렇게 다른 언어에 있어서도 같은 방법을 적용했다면, 이번 논문에서 제안하는 방법론은 각 언어의 특성을 담을 수 있다는 것이 가장 인상깊었습니다. 이러한 방법론을 사용하면 현재 많이 개발된 영어-스페인어에만 국한되지 않고 상대적으로 성능이 떨어지는 영어-한글 모델에서도 성능을 향상 시킬 수 있을 것으로 기대합니다. 자세한 과정으로 나누어 쉽게 설명해주셔서 감사합니다.
이번 세미나에서는 Multilingual BERT가 갖는 한계점과, 이를 극복하기 위한 다양한 시도들에 대해 소개해 주셨습니다. 우선적으로 Multilingual BERT가 갖는 문제점은 단일 언어로 학습한 모델 대비 다양한 언어로 학습한 모델의 성능이 저하되는 Multilingual Model이 갖는 문제점과, 언어 간의 구조가 상이하여 성능이 저하되는 것과 같이 Linguistic Difference에서 기인하는 문제점이 있습니다. 각 문제에 대한 해결책으로 발표자께서는 Cross-Lingual Transfer Learning과 Linguistic Typology를 소개해 주셨습니다.
Cross-Lingual Transfer Learning은 Labeled Data가 상대적으로 풍부한 언어의 데이터를 이용하여 Labeled Data가 희소한 언어에 대한 성능을 보완하는 방법입니다. 개인적으로 해당 방법에서 인상깊었던 방법은 Dual Encoder입니다. Dual Encoder는 같은 의미의 문장이라면 서로 언어가 다르더라도 같은 공간에 Mapping되어야 한다는 가정 하에, 서로 다른 언어를 입력으로 각각 Parameter를 공유하는 Encoder를 통해 Contextual Representation을 만들고 결과로 나온 서로 다른 언어의 Representation의 Cosine Similarity가 증가하는 방향으로 학습을 진행합니다.
Linguistic Typology는 여러 언어들을 조사하여 특정 기준을 바탕으로 그 유형을 분류하는 연구 분야입니다. 대표적으로 한국어와 영어는 주어, 동사, 목적어의 어순이나 부치사와 명사의 어순 등 문법적인 구조가 상이합니다. 이러한 Linguistic Typology는 모델의 성능에 영향을 미칩니다. 따라서 서로 다른 Linguistic Typology를 맞추기 위해 Positional Embedding에 변화를 줍니다. 이번 세미나에서는 Self-Attention에서 Query와 Key의 Sequence 내의 거리를 Attention weight에 반영하는 Relative Attention을 소개해 주셨고, 이를 위한 Relative Positional Embedding에 대해 설명해 주셨습니다.
Multilingual Language Model 분야의 다양한 동향과, 기존의 Model이 갖는 한계점 및 개선 방법들에 대해 폭넓게 학습할 수 있었던 시간이었습니다. 감사합니다.
금일 세미나 시간에는 “Multi-lingual BERT is not Enough”이라는 주제를 가지고 노영빈 석사과정에 세미나를 이끌어주었습니다. 기존 발표자의 연구주제인 multi-lingual에서 이어진 오늘의 세미나는 Multi-lingual 관련해서 깊이있는 세미나시간이였다고 생각되며, 그만큼 많은 논문들을 다루어 주었습니다. 우선 세미나의 Intro는 기존 연구수행결과인 Cross-Lingual Transfer learning을 통해서 감성분석을 수행한 사례로부터 시작하였습니다. 해당 실험의 성능이 기대한 수준만큼의 결과를 얻지 못하였지만, 이로부터 문제점을 인식하여, 앞으로의 연구방향을 정말 잘 설계해 나간 것 같습니다. 크게 2가지의 성능저하 원인(Multi-lingual와 lingual difference)을 확인하였으며, 본 세미나는 이러한 2가지 문제점을 해결해보자 하는데서 시작하였습니다.
일반적으로 Cross-Lingual Transfer Learning은 labeled 데이터가 상대적으로 abundant 언어의 데이터를 이용하여 labeled데이터가 희소한 언어에 대한 성능을 보완하는 방법을 말하는데, 이때 labeled 데이터의 수준에 따라 zero-shot으로 볼 수 있으며, 기본적으로는 Cross-Lingual Transfer learning으로 정의한다고 합니다. 이러한 연구에는 대표적으로 다양한언어의 대량 코퍼스를 활용하여 shared vocabulary를 통해 multi-lingual bert를 수행한 연구가 있으며, 특정 NER task에서 zero-shot inference시 mono-lingual 수준만큼은 아니지만 일정 기대수준 이상의 성능을 확인할 수 있었으며 특히 pos tagging의 경우, zero-shot inference임에도 불구하고 동일 언어학습에 준하는 높은 성능을 거둔 것을 확인할 수 있었습니다. 여기서 의구심이 들었던 부분은 해당 연구결과에서 사용된 [English, German, Italian, Spanish]은 문법적으로 많은 유사성을 가지는 라틴계열의 언어라는 특징을 가지고 있는데, 이와 다른 동양권의 한국어나 일본어의 경우에는 동일한 양상을 보이지는 않을 것으로 예상됩니다. 이는 세미나 후반에서 언급되는 Linguistic Typology관점에서 확인할 수 있었습니다.
Cross-Lingual Transfer learning pretraining 연구에서는 서로 다른 언어의 sentence pair를 통해 masked language modeling을 수행한 시도도 있었으며, 이때는 같은 의미를 가진 token간의 attention을 통해 언어간 alignment가 수행되어진다고 해당 연구에서는 주장하고 있습니다. 최근 ACL2020에서 소개된 “Unsupervised cross-lingual representation learning at scale”에서는 기존 연구에서의 XLM으로부터 개선된 XLM-R를 통해서 성능을 개선하였습니다. 실제로 XNLI dataset(각 언어별 textual Entailment 평가 데이터를 제공)을 활용하여 cross lingual transferability를 평가하였으며, 1) english학습데이터만을 사용한 zero-shot성능(cross-lingual transfer), 2) English 학습데이터를 각 target language로 번역하여, 모든 언어의 데이터 concat 후 학습 데이터로 활용한 성능(translate train all)에서 모두 기존 XLM, mBERT 보다 높은 성능을 확인할 수 있었습니다.
앞서서 언급한 것처럼, Multi-lingual 모델 학습시에 활용되는 언어 간의 유사성은 고려해야할 문제이며, 이러한 언어적 차이를 고려한 Linguistic Typology(여러언어들을 조사하여 특정 기준을 바탕으로 그 유형을 분류하는 연구)를 활용하여 생각해볼 수 있었습니다. [Pires et al, ACL, 2019]에서는 Cross-lingual model에서 이러한 Linguistic Typology를 추출하여 그 유사성이 높은 언어 간에는 multi-lingual Zero-shot Inference의 성능이 향상되는 것을 확인할 수 있었습니다. 특히 mBERT pretraining시 vocabulary의 overlap과 word-order similarity를 제어한 경우, word-order similarity가 낮아질수록 cross-lingual 성능하락을 통해서 이를 파악 가능하였습니다(하지만, word-order similarity 이외의 언어사이의 유사도가 존재하기에 일정수준의 XNLI성능 유지를 확인). 상기 Word-order similarity와 유사하게 mBERT 학습에 활용되는 embedding 단계에서의 positional encoding을 token사이의 query로부터 key의 position을 고려한 relative position embedding matrix을 이용한 relative attention score를 산출 가능하며, 최종적으로 기존 attention score와 합산한 Relative Attention을 활용할 수 있으며, 언어간 distance(word-order기반의)가 클수록 word-order에 free한 self-attention(relative attention)모델이 word-oder가 보존되는 RNN 모델보다 높은 것을 확인할 수 있었습니다.
장정 2시간 가까이되는 시간 동안 본 세미나를 통해서 Multi-lingual modeling에 대해서 지금까지의 흐름을 충분히 파악할 수 있었습니다. 일반적으로 세미나시간에는 1~3개의 논문을 정리한 것으로 진행되는데, 발표자는 금일 세미나를 위해서 많은 볼륨의 현재까지의 관련 선행연구를 다루어 주었습니다. 또한 본 세미나 게시글에는 친절하게 관련논문에 대한 링크까지 모두 첨부해주었습니다. 다소 시간이 많이 걸리고, 귀찮은 일이지만 이러한 배려 덕분에 너무 감사하게 댓글을 작성하고 있습니다. 다음 세미나를 준비하는 입장에서는 다소 부담?될 수 있지만, 듣는 2시간이 충분히 아깝지 않은 세미나였다고 생각됩니다. 감사합니다.
노영빈 석사과정의 세미나 발표를 들었습니다. 오늘 발표해주신 내용은 Cross-Lingual Transfer Learning 과 관련해서 여러 논문들을 참고해서 정리한 내용이었습니다. Cross-Lingual Transfer Learning 을 위해서는 Multi-Lingual Model 구축이 필요한데, 이를 잘 구축하기 위한 방법으로 Masked Language Modeling(MLM), Translation Language Modeling(TLM), Dual Encoder, Vocabulary Expansion 등에 대해서 이해하기 쉽게 발표해주셨습니다. 특히, XLM-R 모델은 Language 에 대한 signal 없이도 기존 XLM 보다 훨씬 높은 성능을 보여주어 이점이 매우 흥미로웠습니다. 추가적으로 언어간의 차이를 비교하여 유형을 분류하는 연구분야인 Linguistic Typology 관련해서도 소개해주셔서 유익했습니다. 발표 잘 들었습니다. 감사합니다.
발표자가 해당 연구 분야를 follow-up 하면서 스스로 정리 및 분류한 개념을 들을 수 있어서 좋았습니다. 덕분에 직접적으로 해당 분야를 공부하고 있지 않지만 개괄적인 흐름과 각 방법론의 특징들을 알 수 있었습니다.
개인적인 생각으로는 딥러닝 분야 전반적으로 robustness를 매우 중요하게 여기고 있는 것 같습니다. 지금까지의 cross-lingual transfer learning에서도 A -> B 와같이 source와 tartget이 정해진 모델 보다는 모든 언어에 대해서 transfer가 가능한 모델을 만드는 것이 기존의 딥러닝을 바라보는 시각과 결이 같기 때문에 그러한식으로 robustness를 고려한 모델들이 연구되어 왔습니다. 하지만 일반적인 상황(real world)에서는 source와 target이 특정지어지는 경우가 많을것입니다. 발표자는 이러한 상황을 언급하며 linguistic typology를 고려하는 cross-lingual transfer learning 모델을 구축하고자 하였습니다. 실제 활용하는 입장에서는 반드시 필요한 방향이라 생각하며 꼭 좋은 성과를 거두길 바랍니다.
이번 세미나는 노영빈 석사과정의 Multilingual BERT에 대한 발표였습니다. 하나의 언어에 대해 학습하는 것을 Monolingual이라고 하며, 두 개 이상의 언어를 함께 학습하는 것을 Multilingual이라고 합니다.
먼저, Multilingual 모델 중 Labeled 데이터가 상대적으로 풍부한 언어의 데이터를 이용하여 labeled 데이터가 희소한 언어에 대한 성능을 보완하는 방법을 Cross Lingual Transfer Learning이라고 합니다. 해당 방법론들은 Multilingual BERT에서 부터 Translation Language Model인 XLM과 Dual Encoder를 이용한 LaBSE까지 각 방법들에 대해 자세히 설명해주어 이해 하기 쉬웠습니다.
두번째로 다룬 내용은 각 언어마다 특징을 나타내는 Linguistic Typology에 관한 내용이었습니다. 영어와 한글은 사용하는 문자도 다르고, 어순도 다릅니다. 따라서, 이렇게 형태가 다른 언어간의 Transfer Learning은 직관적으로 잘 되지 않을 수 밖에 없습니다. 이번 세미나에서 발표자 본인의 생각에 대한 내용을 설명과 함께 해결방법을 제시하여 '공부는 저렇게 해야하는구나' 라는 반성을 하게 되었습니다. 발표 감사합니다.
crosslingual transfer learning은 label이 풍부한 언어의 데이터를 이용해 희소한 언어의 성능을 끌어올리는 task입니다. 이번 세미나에서는 해당 task에 대한 최신 논문들을 배울 수 있었습니다. 세미나를 들으며 흥미로웠던 논문은 XLM과 Dual Encoder입니다. XLM은 서로 다른 언어의 parallel한 문장 두 문장을 함께 넣어 masked language model을 수행합니다. 이를 통해 같은 의미를 지닌 token간 alignment가 이루어지게 됩니다. 개인적으로 masked language model을 변형시켜 학습을 수행하는 이러한 방식을 여러 가지 연구에 적용할 수 있을 것이라고 생각합니다. Dual Encoder 방식을 이용한 최근 모델인 LaBSE는 다양한 종류의 언어 corpus를 이용해 bert를 pretrain한 뒤 학습된 bert를 이용해 서로 다른 두 언어 간의 cosine similarity를 계산해 loss를 구합니다. 이처럼 word2vec의 학습 방식과 같은 contrastive learning 은 최근 이미지에서 SimCLR과 같은 self-supervised learning의 목적함수로 이용됨으로써 각광받고 있습니다. self-supervised learning 논문들을 읽으며 이를 자연어처리에 어떻게 적용할 수 있을지 고민을 했었는데 해당 논문의 저자도 그러한 고민을 하며 모델을 설계한 것 같아 재미있었습니다. 그 밖에도 다양한 논문과 실험 결과를 자세히 설명해주셔서 최신 트렌드를 잘 따라갈 수 있었습니다. linguistic typology를 이용한 분야는 저번 세미나에도 코멘트를 했지만 다양한 시도를 할 수 있을 것 같습니다. 양질의 논문들을 여러 개 설명해주셔서 굉장히 유익한 시간이었습니다. 감사합니다.
우선 오늘 세미나의 주제선정을 본인의 개인연구 관점에서 원인을 파악하고, 이를 해결하기 위한 과정이 매우 체계적이였습니다. 특히 bert 를 사용할 때 cross pair sentence 를 사용하여 의미론적 임베딩 부분을 학습하게 하는 방법은 다량의 sentence pair 가 있다면 매우 직관적이고 유용할 것 같았습니다. dual 인코더 부분에서 parameter 를 공유하면서 유사도를 기반으로 loss 를 전파하여 두개의 문장이 유사하도록, 학습하는 과정 또한 상당히 직관적이였습니다. 다양한 모델 구조를 통해, 고착된 생각에서 벗어날 수 있었던 시간이였습니다. 추가로 dual 인코더 transfer learning 에서 같은 언어들이 어떻게 인코딩 되는지 궁금하여 질문했었는데, 당연히 유사하게 임베딩 되겠지만, 의미론적부분과 언어론적 부분을 control 할 수 있는 부분을 개선하면 더 좋은 방법론이 되지 않을까 생각합니다. 또 마지막으로 Relative positional 임베딩을 remind 하는 시간을 가졌습니다. 이 때, position을 지정하기 힘든 task(즉, sequence order가 없는) 상황에서 대채할 수 있는 방법론 으로 생각합니다. 해당 부분에 대한 아이디어는 상당히 저에게 좋은 영감을 주었습니다. 좋은 발표, 그리고 누구나 알아듣기 쉽게 설명해주는 세미나 여서 항상 좋은 시간 가지고 갑니다. 감사합니다.
이전의 개인 실험으로 multilingual BERT, KOBERT 각각에서 감성 분석 데이터(영어, 한글)를 함께 학습시키면 상대적으로 풍부한 영어 데이터에서 관계를 잘 학습하여 한글 감성 데이터에도 좋은 영향을 주지 않을까 라는 의문에서 시작합니다. 예전 실험 결과는 좋지 않았지만 이에 대한 원인이 모델측면인지, 데이터의 다양성 측면인지에 대해 의문을 갖고 관련한 논문을 소개해주었습니다. 모델 측면에서 multilingual BERT 를 학습시키기 위해 MLM, TLM, Dual Encoder 등 다양한 방법으로 시도할 수 있고 이에 따라 모델의 능력도 달라집니다. 해당 부분을 설명해주실 때, 발표자가 논문 별로 슬라이드의 순서에 신경을 많이 썼다는 것을 간접적으로 느낄 수 있었습니다. multilingual 에서 일반적인 방법인 MLM 에서 TLM은 같은 의미를 가지는 언어들의 pair를 구성하여 language embedding도 추가하여 MLM을 진행하는 방식입니다. 상대적으로 부족한 언어에 대해 pair를 구하기가 힘들어서 일반적인 상황에서 언어들의 pair를 맞추기가 어려울 것 같다는 생각이 들었습니다. 이후 관련하여 데이터를 많이 넣고 Token 사이즈를 늘리고 language embedding을 제외하는 등의 후속 논문들이 나오는데, 결국은 크기를 크게하여 성능을 증가시켰다고 생각합니다. 신선했던 부분은 vocabulary expansion 부분인데, multilingual BERT에서 학습되지 않은 언어라도 downstream-task 를 수행하기 위해 해당 언어로 MLM을 수행하면 zero-shot 성능이 향상된다는 점이였습니다. 다음으로 모델측면이 아닌 multilingual BERT 에 input을 어떻게 넣을지에 관한 주제로 설명하였는데, 이 때 언어마다 typology 가 크게 차이날수록 zero-shot에서 성능이 더 좋지 않았습니다. 이를 위해 Positional embedding 에서 토큰 위치 기준으로 상대적인 weight를 부여하여 최근에 해결하고 있었습니다. 후자의 부분에서 아직 개선할 부분이 많은 분야라고 생각하는데, 많은 분량의 논문들에 대해 좋은 발표 및 발표자료를 공유하여 주신 노영빈 연구원에게 감사의 말씀을 드립니다.
이번 세미나는 Multilingual BERT is not enough를 주제로 진행되었습니다. 기존에 multilingual 관련된 연구가 많이 진행되었는데, 그 흐름을 정리할 수 있는 좋은 세미나였습니다. Multilingual model은 대부분 데이터가 많이 부족한 task에서 성능을 높이기위해 사용되곤합니다. 물론 monolingual 데이터만을 활용해서 학습하는것이 가장 좋은 성능을 낸다고 알고있지만, 데이터가 매우 부족한 상황에서는 상대적으로 데이터가 많은 (english, spanish) 언어를 함께 활용해서 성능을 높일 수 있습니다. 하지만, 실제로 모든 task에서 multilingual model이 좋은 성능을 보이는것은 아니기 때문에 오늘 세미나는 언어의 차이로부터 오는 성능하락과, 이를 극복하기위한 여러가지 연구에 대해 다루어주셨습니다.
저는 그중에서도 LaBSE가 가장 기억에 남습니다. 최근에 저도 이 논문에 대해 스터디때 리뷰를 진행한적이 있었는데 논문 자체의 아이디어가 매우 직관적입니다. 같은 의미를 가지는 문장이라면 vector space에서 비슷한 공간에 mapping되도록 학습하며, 기존에 crosslingual transfer learning에서 사용되었던 MLM, TLM을 Pretraining단계에서 모두 사용할 뿐만 아니라 추가적으로 bilingual 데이터를 활용해 학습을 진행합니다. 이 모델이 인상깊었던 이유는 기존에 있었던 아이디어를 잘 적용하고, 아이디어를 직관적으로 풀어냈기때문입니다.
또한 두번째 원인은 linguistic typology인데, 이전 세미나를 듣지못해 처음 알게된 분야였으나 발표자께서 잘 설명해주셔서 흐름을 따라갈수있었습니다. 언어가 비슷한 의미를 가지고있다고 하지만, 각 언어마다 structure가 다르기때문에 언어간 discrepancy를 해결하는것이 매우 중요합니다. 이러한 문제를 개선하는 연구분야라 생각했으며 position embedding을 변경하는것이 성능 개선에 도움이 된다는게 신기하게 다가왔습니다. 좋은 발표 감사합니다