오늘 소개해주신 논문은 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 으로 modality에 상관없이 self-supervised learning을 진행할 수 있는 구조에 대한 설명이 이루어졌습니다. Modality에 따라 특화 되어 있는 self-supervised 방식이 존재합니다. 당장 NLP 만해도 Language Model이 그러할 것입니다. 본 방법론의 핵심은 contextualized latent representation을 학습 및 생성해 내는 것입니다. 개인적으로 이미지처리 분야에서 이미지의 self-supervised learning 방식 중 하나로 패치를 나누어 순서를 맞추는 것과 회전을 적용했을 때 회전각도를 예측하는 task는 처음 알게 되었는데 이미지 내의 context를 학습하기에 충분히 합리적으로 느껴졌습니다. 크게 Transformer 를 기저로 두어 Student-Teacher model의 구조를 갖고 있는데 student model에서는 masking 을 적용한 후 representation을 구하게 됩니다. 동시에 Teacher model에서는 masking이 없이 input을 입력되어 masking된 부분의 representation에 대해서 손실값을 구해 학습을 진행하게 됩니다. 설명을 들으며 김동화 박사님께서 작성하셨던 논문이 많이 생각 났는데요, modality의 경계를 없애고 self-supervised 학습방식을 채택함으로써 실용적인 매커니즘인 것 같습니다. 재미있는 논문 소개해주셔서 감사합니다.
Subin Kim
2022-02-27 22:42
이번 세미나에서는 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 논문 소개가 있었습니다. 본 논문에서는 다양한 modality에 대해서 보편적으로 self-supervised learning을 할 수 있는 방법론을 제안합니다. 핵심은 contextualized latent representation을 예측하는 것인데, 기존에는 token 자체나 unit단위로 target을 설정했다면, 이는 contextualized된 encoder의 output 자체, 특히 top-k개 layer output의 평균 값을 target으로 설정합니다. 그리고 이를 학습하기 위해서 BYOL의 student-teacher 모델 방식을 사용했습니다. 이를 통해 학습한 결과, downstream task에서 선행 모델 보다 더 좋은 성능을 보였는데, 여러가지 modality를 아우르는 방법론임에도 불구하고 single task에 특화된 모델과 경쟁할 만한 성능을 낸 점이 흥미로웠습니다. 그리고 encoder layer output 값을 target으로 설정한 점도 신선했던 것 같습니다. 좋은 발표 감사합니다.
Euisuk Chung
2022-02-27 22:55
이번 세미나에서 소개해주신 논문은 “data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”으로, 컴퓨터비전, 자연어처리와 음성처리 3가지 도메인에서 동일한 형태로 self-supervised learning을 진행할 수 있는 구조를 제안합니다. 각각 도메인들마다 존재하던 기존의 self-supervised learning 방법론들은 개별 modality에 특화되어 있다는 점을 활용하여, “contextualized latent representation”을 예측하였습니다. BERT구조를 차용하여 masked input을 활용하고, 이전 연구인 Masked Autoencoder와는 다르게 Encoder-Decoder 구조가 아닌 teacher-student 구조를 사용하였습니다. Teacher 모델은 원본 이미지를, Student 모델은 masked 이미지를 input으로 하며, Top K layer의 contextualized latent representation을 활용하여 loss를 계산합니다. 본 연구는 음성, 자연어, 이미지의 여러 도메인에서 공통적으로 사용할 수 있는 모델임에도 불구하고 한가지 도메인에 적합한 모델들과 견주었을 때 좋은 성능이 나오는 것으로 보아 효율적인 representation을 잘 추출할 수 있는 모델이라고 생각합니다. 발표자분께서 말씀하셨던 것처럼 해당 연구의 후속 연구로 multi-modal을 함께 고려해준 연구가 나올 것 같다는 말에 저 또한 동의합니다. 좋은 발표 감사합니다.
Takyoung Kim
2022-02-28 00:24
Vision, NLP, speech 등 각 분야에서 저마다의 형태로 발전하고 있는 self-supervised learning 방법론을 통합하는 data2vec에 대해 설명해주셨습니다. Masked input을 모델의 입력으로 사용하여 이를 context에 맞추어 복원하는 식으로 self label을 설정합니다. 다만 도메인에 무관한 형태를 갖추기 위해 encoder-decoder 대신 teacher-student 구조를 채택하는데, teacher representaion의 top-k layer 평균을 사용합니다. Universal한 용도를 갖는 모델에 대한 논의가 많이 이루어지는 가운데 적절한 baseline으로서의 통합 형태를 제시하였다는 점에서 의의가 있는 것 같습니다. Large-scalability와 함께 점점 더 좋은 성능을 낼 것으로 기대가 되지만 내재하는 bias를 어떻게 제거할 것인지에 대한 논의도 많이 이루어졌으면 하는 바람이 있습니다. 발표 잘 들었습니다.
Hoonsang Yoon
2022-02-28 09:15
본 세미나는 Self Supervised Learning이 Modality에 따라 달라지는 연구 현황에 대하여, 전체 Modality를 아우를 수 있는 새로운 Framework 또는 Pretext task를 제안합니다. BERT로 대표되는 NLP에서는 MLM, Vision에서는 DINO, BYOL, Speech에서는 Wav2Vec 모델이 각기 Self-supervised Learning에 대한 Pretext Task를 정의하고 있습니다. 이런 복잡함을 해소하기 위하여 자연어 / 이미지에 관계 없이 사용하는 모델을 통해 얻을 수 있는 Hidden Representation을 사용하면 Modality 차이를 극복할 수 있으며, Student Model과 Teacher Model을 구축하여 Distillation Method를 활용합니다. Student의 Hidden Rep을 통해 원 Input의 Hidden Rep을 예측할 수 있게 하는데 이는 간략하게 대비해봤을 때, 입력값 종류로 인해 변할 수 밖에 없는 모델의 구조를 은닉층으로서 통일 시켰다는 점에서 MixText와 닮아보입니다. 최근 Semi-supervised Learning에 흥미가 많은데 Self-supervised와의 차이점을 연구를 함에 있어 염두해두어야 할 것 같습니다. 항상 좋은 연구 소개해주셔서 감사합니다.
Kyoosung So
2022-02-28 11:54
이번에 소개해주신 논문은 "Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language"으로, 이미지/텍스트/음성처리의 여러 모달리티에 대해서 동일한 방식의 self-supervised learning을 수행하는 방법론을 제안합니다. 일반적으로 자연어처리의 경우 버트를 학습할 때 사용하는 masked language modeling 등을, 비전에서는 augmentation 후 예측과 같은 방법을, 음성에서는 NLP와 유사하게 masked 방식을 활용하나 이를 통합하기에는 어려움이 있습니다. 따라서 본 논문에서는 hidden representation을 활용하여 그러한 차이를 극복하고자 하는데, 토큰 단위의 표상을 활용하는 것이 아니라 student-teacher로 구축된 모델 구조에서 teacher encoder의 k개 레이어의 표상을 활용하게 됩니다. 이러한 방식으로 학습이 된 모델은 세 도메인 모두에서 어느 정도의 성능을 달성하였습니다. 최근에 특히 masked 방식의 학습이 활발히 연구가 되는 것 같습니다. 끝부분에 설명하셨듯 masking 방식에 대해서도 여러 갈래가 연구되지 않을까 기대됩니다. 좋은 발표 감사합니다.
Hyeongwon Kang
2022-02-28 17:20
이번 세미나는 NLP, Vision, Speech 등 여러 분야의 self-supervised learning을 통합하는 data2vec을 주제로 진행되었습니다. 이전 연구들이 개별 modality에 따라 다르게 self-supervised learning 방법론을 사용해왔고, 본 논문은 modality가 다르더라도 동일한 형태의 self-supervised learning 방법론을 제안하였습니다. 해당 방법론의 특징은 contextualize latent representation을 예측하도록 하는 것입니다. 모델의 구조는 teacher-student구조를 사용하여 teacher의 tok-k layer representation의 평균을 target으로 사용합니다. 각 modality에 맞는 방법론이 아닌 통합 방법론임에도 불구하고 좋은 성능을 낸 점이 흥미로웠으며, 모델을 구성할 때에 복잡하지 않을 것 같다라는 생각이 들었습니다. 하지만 본 세미나에서 교수님께서 말씀하신대로 우리는 뇌를 정확히 이해하고 있지 않고, 모든 신경이 필요에 따라 다르게 작동될텐데 이처럼 각기 다른 분야를 해결하는 방법을 통합하는 것이 과연 옳은지에 대해서는 저도 의구심이 드는 부분인 것 같습니다. 흥미로운 연구이며, 저도 여러 생각을 하게 되는 주제인 것 같습니다. 좋은 발표 감사합니다.
Heejeong Choi
2022-02-28 17:35
금일 세미나는 "data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language"라는 주제로 진행되었습니다. 본 발표에서는 Vision, NLP, Speech 분야에서 모두 사용 가능한 self-supervised learning framework인 data2vec이 소개되었습니다. 먼저 세 분야에서 모두 input을 순서가 있는 작은 단위의 데이터로 표현할 수 있기 때문에 모든 분야에서 사용할 수 있는 단일 framework를 제안한 점이 논리적이라고 생각했습니다. 개인적으로 이 논문에서 student-teacher 구조를 사용하여 masked input을 받은 student model이 original input을 받은 teacher model의 contextualized representation 중 masking 위치에 해당하는 부분의 representation을 예측하도록 학습하는 방법이 매우 합리적이라는 생각이 들었습니다. 기존에는 대부분 단일 모델을 사용하여 masking 된 위치의 input 자체를 예측하도록 학습하였지만, 이러한 방식을 사용함으로써 representation을 보다 더 잘 학습하도록 했다는 생각이 들었습니다. 이러한 학습 방법은 self-supervised learning 모델에 다양하게 적용 될 수 있을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
Yookyung Kho
2022-02-28 22:33
이번 세미나는 multimodal 하에서의 self supervised learning을 다룬 논문 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language를 주제로 진행되었습니다. 이름에서 알 수 있듯이 data2vec은 domain과 관계 없이 각각 Vision, NLP, and Speech data domain에서 동일한 형태로 self-supervised learning을 진행할 수 있는 구조입니다. 이때, self-supervised learning은 labeled 데이터 외에도 unlabeled data를 통해 자체적으로 label을 생성하여 supervised model을 학습합니다. 기존 연구들은 개별 modality에 특화된 representation learning 방식을 제안했다면, 본 연구는 modality에 관계 없이 maked input과 student-teacher 구조를 활용하여 동일한 형태로의 representation learning을 가능케 했습니다. 하지만, modality에 따라 다른 feature extractor와 masking 방식을 활용하기 때문에 어느정도 한계점은 존재합니다.
개인적으로 Multimodal task에서의 representation learning에 큰 관심을 갖고 있던 터라, 본 세미나가 특히 유익하게 다가왔습니다. 또한, tech blog도 소개해주셔서 앞으로 공부할 때 많은 도움이 될 것 같습니다. 항상 좋은 발표 진행해주셔서 감사합니다.
Yonggi Jeong
2022-03-01 11:41
이번 세미나에선 multimodal 의 representation learning 을 연구한 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 에 대한 내용이 소개되었습니다. data2vec 는 Speech, Vision, Language 의 representation learning 방식을 제안했던 기존 연구들과 다르게 모든 데이터 도메인에 범용적으로 사용될 수 있는 모델 및 학습 프레임워크를 제시합니다. 학습 구조는 BYOL 의 EMA를 사용한 teacher-student 구조의 self-distillation 을 사용하였고 pretext task 는 teacher 의 masking 된 representation 을 student 가 예측하게 하는 방식을 사용합니다. Multimodal 에 활용하기 위해 이렇게 비교적 단순한 방식을 활용하였음에도 도메인 특화된 pretext task나 augmentation을 활용한 기존의 연구대비 좋은 성능을 보여준다는 점이 소개된 연구의 가장 큰 의의인 것 같습니다. 다만, 제안된 구조가 좀 더 범용적으로 활용되기 위해선 multimodal에 대한 학습도 동시에 진행될 수 있어야 하지 않을까 하는 생각이 듭니다. 좋은 연구 소개해주셔서 감사합니다.
Jaehyuk Heo
2022-03-03 19:48
금일 세미나는 최근에 공개된 Meta AI의 data2vec 이라는 방법에 대해서 소개해주셨습니다. 본 논문에서 주장하는 핵심은 서로 다른 도메인의 데이터를 단일 메커니즘으로 학습한다는 것입니다. 같은 Self-supervised learning 방법을 통해 image, text, 그리고 speech 까지 모두 좋은 성능을 내었다는 점에서 인상 깊게 보았습니다. 방법 자체는 기존에 연구되었던 Masked Language Modeling 방법과 BYOL의 방법을 함께 활용하여 학습하였지만 다양한 도메인의 데이터를 통해 실험적으로 보였습니다. 최근에 계속되는 연구 방향은 더이상 여러 task에 맞춰져있는 architecture가 아닌 하나의 architecture를 통해서 여러 도메인에 일반화된 성능으로 적용하는 것 인 것 같습니다. 오늘도 좋은 내용 발표해주셔서 감사합니다.
Jeongseob Kim
2022-03-07 14:56
금일 세미나는 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language에 대해 진행되었습니다. 개인적으로 흥미를 가질 수 있었던 부분은 본 연구가 general framework 제안을 목표로 한다는 점 이었습니다. Vision, nlp, speech domain을 통합해 모두 적용가능한 framework를 제안한다는 당찬 포부가 어떻게 실현될 수 있을 지 궁금해하며 듣게 되었습니다. 개인적으론 각 데이터 도메인 모두 입력 데이터 쉐입이 다르고, 각 데이터에 내재된 특징의 양태도 모두 다르기 때문에.. 이를 어떻게 self-supervised로 통합할 수 있을까 궁금했습니다. Self-supervised는 unlabeled data에서 label data를 생성해 학습에 활용합니다. Label data를 얻기 어려운 현실에서 이러한 방법론은 정말 효용가치가 높은 접근이라 생각합니다. 데이터가 속한 각 도메인마다의 modality가 아닌, 어떤 데이터든 주어진 데이터 속에서의 contextualized information을 학습하도록 하는 것이 포인트입니다. 이를 위해 student-teacher 구조를 적용하고, self-labeling을 위해 masked input prediction을 student-teacher구조에서 수행하도록 합니다. 개인적으로 self-supervised learning에 대해 이해가 부족했는 데, 이번 세미나를 통해 더욱 깊이 이해할 수 있게 되었습니다. 좋은 발표 준비해주신 발표자분께 감사드립니다.
Jungho Lee
2022-03-07 17:41
금일 세미나에서는 Data2vec 논문에대한 세미나가 진행되었습니다. 우선 이미지, 자연어, 음성 등 다양한 도메인에 대한 통합 프레임워크를 제안했다는 것에서 흥미로운 주제 및 논문제목이였습니다. 우선 self supervised learning 자체가 도메인 상관하지않고 모든 분야에서 어떻게든 적용되는 트랜드로 알고있습니다. 본 논문은 여기에 최근에 다뤄지는 기법들을 최대한 많이 적용시킨 노력이 보였습니다. 특히 masked input prediction 을 distiling 방법을 이용해서 학습하게하는 것이 여러 방법론의 조합을 사용했다고 느껴지는 부분이였습니다. 세미나에서 간단한 예시들을 통해 설명을 잘 들었고, 느꼈던 점은 특별히 새로운 것이 아니더라도, 역시나 새로나오는 트랜드는 계속해서 따라가야함을 느낄수 있었던 발표였습니다. 좋은 발표 감사합니다.
Jina Kim
2022-03-08 00:14
오늘 세미나는 다양한 modality에서 사용할 수 있는 self-supervised learning 방법론인 data2vec에 대한 내용으로 진행되었습니다. 해당 방법론은 서로 다른 modality에 적용할 수 있게 하기 위해 encoder-decoder 구조를 teacher-student 구조로 대체하였습니다. 먼저 student model이 masking된 input을, teacher model은 원본 Input을 받아 각각 contextualized representation 도출합니다. 그 후, 각 input에 대한 masking된 부분을 예측하는 것이 아닌, student model의 input masking 위치에 해당하는 representation을 통해 teacher model의 representation을 예측하도록 합니다. 이렇게 contextualized latent representation을 예측함으로써 도메인에 상관없이 같은 구조로 학습 가능하게 됩니다. 실험 결과, 각 modality에 특화된 모델의 성능에 견줄 수 있는 좋은 성능을 보였고, modality의 구애를 받지 않는 만큼 multimodal task에서도 활용될 수 있을 것이라고 생각됩니다. 좋은 발표 감사합니다.
Yukyung Lee
2022-03-16 19:58
최근 meta ai가 modality에 dependent하지 않은 data2vec 연구를 공개하여 화제가 되었습니다. 기존의 DNN은 대용량의 unlabeled dataset을 통해 pretraining을 수행하며, self-supervised learning형태로 학습을 진행합니다. 하지만 modality별로 pretraining object가 상이하게 정의하였습니다.
data2vec은 논문의 제목처럼 모든 데이터를 동일한 형태로 학습할 수 있는 방법론을 제안합니다. 해당 논문은 이를 “contextualized latent representation”이라 명명하고있습니다. data2vec의 포인트는 teacher-student network라 생각합니다. modality에 상관없이 context representation 그 자체를 학습하기위해서는 teacher network를 따라갈 수 있도록 학습하는것이 가장 큰 핵심입니다. 또한이 때 teacher encoder k개를 취합하여 사용한것도 합리적이라 생각하며, domain specific model과 comparable한점이 인상깊었습니다. 최신 연구를 공유받을 수 있어 유익했습니다. 감사합니다.
Yunseung Lee
2022-04-03 19:47
금일 세미나는 여러 modality 데이터에 동일한 형태로 self-supervised learning을 할 수 있는 data2vec 구조를 제안하는 논문에 대한 리뷰로 진행되었습니다. 현재 self-supervised learning 방법론들은 각 modality에 특화되어 있지만, data2vec은 contextualized latent represenation을 예측하는 방식으로 학습됩니다. 이미지, 자연어, 오디오에 대한 전처리 방법은 modality마다 차이가 있으나, representation 학습과정에서는 모두 student model이 teacher model의 representation을 예측하는 방식으로 프레임워크가 구성되어 있습니다. Discussion 부분에서 언급해주신 것처럼 data2vec은 여러 modality를 통합하여 self-supervised learning을 할 수 있는 프레임워크라는 점에서 의의를 가지지만, input이 달라도 결과적으로 유사한 representation만 생성해내는 representation collapse 문제를 방지하기 위한 장치들이 더 필요할 것이라 생각됩니다. 3가지 modality를 단일 프레임워크로 representation을 학습할 수 있는 모델에 대해 소개해주셔서 흥미롭게 들었습니다. 좋은 발표 감사합니다.
오늘 소개해주신 논문은 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 으로 modality에 상관없이 self-supervised learning을 진행할 수 있는 구조에 대한 설명이 이루어졌습니다. Modality에 따라 특화 되어 있는 self-supervised 방식이 존재합니다. 당장 NLP 만해도 Language Model이 그러할 것입니다. 본 방법론의 핵심은 contextualized latent representation을 학습 및 생성해 내는 것입니다. 개인적으로 이미지처리 분야에서 이미지의 self-supervised learning 방식 중 하나로 패치를 나누어 순서를 맞추는 것과 회전을 적용했을 때 회전각도를 예측하는 task는 처음 알게 되었는데 이미지 내의 context를 학습하기에 충분히 합리적으로 느껴졌습니다. 크게 Transformer 를 기저로 두어 Student-Teacher model의 구조를 갖고 있는데 student model에서는 masking 을 적용한 후 representation을 구하게 됩니다. 동시에 Teacher model에서는 masking이 없이 input을 입력되어 masking된 부분의 representation에 대해서 손실값을 구해 학습을 진행하게 됩니다. 설명을 들으며 김동화 박사님께서 작성하셨던 논문이 많이 생각 났는데요, modality의 경계를 없애고 self-supervised 학습방식을 채택함으로써 실용적인 매커니즘인 것 같습니다. 재미있는 논문 소개해주셔서 감사합니다.
이번 세미나에서는 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 논문 소개가 있었습니다. 본 논문에서는 다양한 modality에 대해서 보편적으로 self-supervised learning을 할 수 있는 방법론을 제안합니다. 핵심은 contextualized latent representation을 예측하는 것인데, 기존에는 token 자체나 unit단위로 target을 설정했다면, 이는 contextualized된 encoder의 output 자체, 특히 top-k개 layer output의 평균 값을 target으로 설정합니다. 그리고 이를 학습하기 위해서 BYOL의 student-teacher 모델 방식을 사용했습니다. 이를 통해 학습한 결과, downstream task에서 선행 모델 보다 더 좋은 성능을 보였는데, 여러가지 modality를 아우르는 방법론임에도 불구하고 single task에 특화된 모델과 경쟁할 만한 성능을 낸 점이 흥미로웠습니다. 그리고 encoder layer output 값을 target으로 설정한 점도 신선했던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서 소개해주신 논문은 “data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”으로, 컴퓨터비전, 자연어처리와 음성처리 3가지 도메인에서 동일한 형태로 self-supervised learning을 진행할 수 있는 구조를 제안합니다. 각각 도메인들마다 존재하던 기존의 self-supervised learning 방법론들은 개별 modality에 특화되어 있다는 점을 활용하여, “contextualized latent representation”을 예측하였습니다. BERT구조를 차용하여 masked input을 활용하고, 이전 연구인 Masked Autoencoder와는 다르게 Encoder-Decoder 구조가 아닌 teacher-student 구조를 사용하였습니다. Teacher 모델은 원본 이미지를, Student 모델은 masked 이미지를 input으로 하며, Top K layer의 contextualized latent representation을 활용하여 loss를 계산합니다. 본 연구는 음성, 자연어, 이미지의 여러 도메인에서 공통적으로 사용할 수 있는 모델임에도 불구하고 한가지 도메인에 적합한 모델들과 견주었을 때 좋은 성능이 나오는 것으로 보아 효율적인 representation을 잘 추출할 수 있는 모델이라고 생각합니다. 발표자분께서 말씀하셨던 것처럼 해당 연구의 후속 연구로 multi-modal을 함께 고려해준 연구가 나올 것 같다는 말에 저 또한 동의합니다. 좋은 발표 감사합니다.
Vision, NLP, speech 등 각 분야에서 저마다의 형태로 발전하고 있는 self-supervised learning 방법론을 통합하는 data2vec에 대해 설명해주셨습니다. Masked input을 모델의 입력으로 사용하여 이를 context에 맞추어 복원하는 식으로 self label을 설정합니다. 다만 도메인에 무관한 형태를 갖추기 위해 encoder-decoder 대신 teacher-student 구조를 채택하는데, teacher representaion의 top-k layer 평균을 사용합니다. Universal한 용도를 갖는 모델에 대한 논의가 많이 이루어지는 가운데 적절한 baseline으로서의 통합 형태를 제시하였다는 점에서 의의가 있는 것 같습니다. Large-scalability와 함께 점점 더 좋은 성능을 낼 것으로 기대가 되지만 내재하는 bias를 어떻게 제거할 것인지에 대한 논의도 많이 이루어졌으면 하는 바람이 있습니다. 발표 잘 들었습니다.
본 세미나는 Self Supervised Learning이 Modality에 따라 달라지는 연구 현황에 대하여, 전체 Modality를 아우를 수 있는 새로운 Framework 또는 Pretext task를 제안합니다. BERT로 대표되는 NLP에서는 MLM, Vision에서는 DINO, BYOL, Speech에서는 Wav2Vec 모델이 각기 Self-supervised Learning에 대한 Pretext Task를 정의하고 있습니다. 이런 복잡함을 해소하기 위하여 자연어 / 이미지에 관계 없이 사용하는 모델을 통해 얻을 수 있는 Hidden Representation을 사용하면 Modality 차이를 극복할 수 있으며, Student Model과 Teacher Model을 구축하여 Distillation Method를 활용합니다. Student의 Hidden Rep을 통해 원 Input의 Hidden Rep을 예측할 수 있게 하는데 이는 간략하게 대비해봤을 때, 입력값 종류로 인해 변할 수 밖에 없는 모델의 구조를 은닉층으로서 통일 시켰다는 점에서 MixText와 닮아보입니다. 최근 Semi-supervised Learning에 흥미가 많은데 Self-supervised와의 차이점을 연구를 함에 있어 염두해두어야 할 것 같습니다. 항상 좋은 연구 소개해주셔서 감사합니다.
이번에 소개해주신 논문은 "Data2Vec: A General Framework for Self-supervised Learning in Speech, Vision and Language"으로, 이미지/텍스트/음성처리의 여러 모달리티에 대해서 동일한 방식의 self-supervised learning을 수행하는 방법론을 제안합니다. 일반적으로 자연어처리의 경우 버트를 학습할 때 사용하는 masked language modeling 등을, 비전에서는 augmentation 후 예측과 같은 방법을, 음성에서는 NLP와 유사하게 masked 방식을 활용하나 이를 통합하기에는 어려움이 있습니다. 따라서 본 논문에서는 hidden representation을 활용하여 그러한 차이를 극복하고자 하는데, 토큰 단위의 표상을 활용하는 것이 아니라 student-teacher로 구축된 모델 구조에서 teacher encoder의 k개 레이어의 표상을 활용하게 됩니다. 이러한 방식으로 학습이 된 모델은 세 도메인 모두에서 어느 정도의 성능을 달성하였습니다. 최근에 특히 masked 방식의 학습이 활발히 연구가 되는 것 같습니다. 끝부분에 설명하셨듯 masking 방식에 대해서도 여러 갈래가 연구되지 않을까 기대됩니다. 좋은 발표 감사합니다.
이번 세미나는 NLP, Vision, Speech 등 여러 분야의 self-supervised learning을 통합하는 data2vec을 주제로 진행되었습니다. 이전 연구들이 개별 modality에 따라 다르게 self-supervised learning 방법론을 사용해왔고, 본 논문은 modality가 다르더라도 동일한 형태의 self-supervised learning 방법론을 제안하였습니다. 해당 방법론의 특징은 contextualize latent representation을 예측하도록 하는 것입니다. 모델의 구조는 teacher-student구조를 사용하여 teacher의 tok-k layer representation의 평균을 target으로 사용합니다. 각 modality에 맞는 방법론이 아닌 통합 방법론임에도 불구하고 좋은 성능을 낸 점이 흥미로웠으며, 모델을 구성할 때에 복잡하지 않을 것 같다라는 생각이 들었습니다. 하지만 본 세미나에서 교수님께서 말씀하신대로 우리는 뇌를 정확히 이해하고 있지 않고, 모든 신경이 필요에 따라 다르게 작동될텐데 이처럼 각기 다른 분야를 해결하는 방법을 통합하는 것이 과연 옳은지에 대해서는 저도 의구심이 드는 부분인 것 같습니다. 흥미로운 연구이며, 저도 여러 생각을 하게 되는 주제인 것 같습니다. 좋은 발표 감사합니다.
금일 세미나는 "data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language"라는 주제로 진행되었습니다. 본 발표에서는 Vision, NLP, Speech 분야에서 모두 사용 가능한 self-supervised learning framework인 data2vec이 소개되었습니다. 먼저 세 분야에서 모두 input을 순서가 있는 작은 단위의 데이터로 표현할 수 있기 때문에 모든 분야에서 사용할 수 있는 단일 framework를 제안한 점이 논리적이라고 생각했습니다. 개인적으로 이 논문에서 student-teacher 구조를 사용하여 masked input을 받은 student model이 original input을 받은 teacher model의 contextualized representation 중 masking 위치에 해당하는 부분의 representation을 예측하도록 학습하는 방법이 매우 합리적이라는 생각이 들었습니다. 기존에는 대부분 단일 모델을 사용하여 masking 된 위치의 input 자체를 예측하도록 학습하였지만, 이러한 방식을 사용함으로써 representation을 보다 더 잘 학습하도록 했다는 생각이 들었습니다. 이러한 학습 방법은 self-supervised learning 모델에 다양하게 적용 될 수 있을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나는 multimodal 하에서의 self supervised learning을 다룬 논문 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language를 주제로 진행되었습니다. 이름에서 알 수 있듯이 data2vec은 domain과 관계 없이 각각 Vision, NLP, and Speech data domain에서 동일한 형태로 self-supervised learning을 진행할 수 있는 구조입니다. 이때, self-supervised learning은 labeled 데이터 외에도 unlabeled data를 통해 자체적으로 label을 생성하여 supervised model을 학습합니다. 기존 연구들은 개별 modality에 특화된 representation learning 방식을 제안했다면, 본 연구는 modality에 관계 없이 maked input과 student-teacher 구조를 활용하여 동일한 형태로의 representation learning을 가능케 했습니다. 하지만, modality에 따라 다른 feature extractor와 masking 방식을 활용하기 때문에 어느정도 한계점은 존재합니다.
개인적으로 Multimodal task에서의 representation learning에 큰 관심을 갖고 있던 터라, 본 세미나가 특히 유익하게 다가왔습니다. 또한, tech blog도 소개해주셔서 앞으로 공부할 때 많은 도움이 될 것 같습니다. 항상 좋은 발표 진행해주셔서 감사합니다.
이번 세미나에선 multimodal 의 representation learning 을 연구한 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 에 대한 내용이 소개되었습니다. data2vec 는 Speech, Vision, Language 의 representation learning 방식을 제안했던 기존 연구들과 다르게 모든 데이터 도메인에 범용적으로 사용될 수 있는 모델 및 학습 프레임워크를 제시합니다. 학습 구조는 BYOL 의 EMA를 사용한 teacher-student 구조의 self-distillation 을 사용하였고 pretext task 는 teacher 의 masking 된 representation 을 student 가 예측하게 하는 방식을 사용합니다. Multimodal 에 활용하기 위해 이렇게 비교적 단순한 방식을 활용하였음에도 도메인 특화된 pretext task나 augmentation을 활용한 기존의 연구대비 좋은 성능을 보여준다는 점이 소개된 연구의 가장 큰 의의인 것 같습니다. 다만, 제안된 구조가 좀 더 범용적으로 활용되기 위해선 multimodal에 대한 학습도 동시에 진행될 수 있어야 하지 않을까 하는 생각이 듭니다. 좋은 연구 소개해주셔서 감사합니다.
금일 세미나는 최근에 공개된 Meta AI의 data2vec 이라는 방법에 대해서 소개해주셨습니다. 본 논문에서 주장하는 핵심은 서로 다른 도메인의 데이터를 단일 메커니즘으로 학습한다는 것입니다. 같은 Self-supervised learning 방법을 통해 image, text, 그리고 speech 까지 모두 좋은 성능을 내었다는 점에서 인상 깊게 보았습니다. 방법 자체는 기존에 연구되었던 Masked Language Modeling 방법과 BYOL의 방법을 함께 활용하여 학습하였지만 다양한 도메인의 데이터를 통해 실험적으로 보였습니다. 최근에 계속되는 연구 방향은 더이상 여러 task에 맞춰져있는 architecture가 아닌 하나의 architecture를 통해서 여러 도메인에 일반화된 성능으로 적용하는 것 인 것 같습니다. 오늘도 좋은 내용 발표해주셔서 감사합니다.
금일 세미나는 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language에 대해 진행되었습니다. 개인적으로 흥미를 가질 수 있었던 부분은 본 연구가 general framework 제안을 목표로 한다는 점 이었습니다. Vision, nlp, speech domain을 통합해 모두 적용가능한 framework를 제안한다는 당찬 포부가 어떻게 실현될 수 있을 지 궁금해하며 듣게 되었습니다. 개인적으론 각 데이터 도메인 모두 입력 데이터 쉐입이 다르고, 각 데이터에 내재된 특징의 양태도 모두 다르기 때문에.. 이를 어떻게 self-supervised로 통합할 수 있을까 궁금했습니다. Self-supervised는 unlabeled data에서 label data를 생성해 학습에 활용합니다. Label data를 얻기 어려운 현실에서 이러한 방법론은 정말 효용가치가 높은 접근이라 생각합니다. 데이터가 속한 각 도메인마다의 modality가 아닌, 어떤 데이터든 주어진 데이터 속에서의 contextualized information을 학습하도록 하는 것이 포인트입니다. 이를 위해 student-teacher 구조를 적용하고, self-labeling을 위해 masked input prediction을 student-teacher구조에서 수행하도록 합니다. 개인적으로 self-supervised learning에 대해 이해가 부족했는 데, 이번 세미나를 통해 더욱 깊이 이해할 수 있게 되었습니다. 좋은 발표 준비해주신 발표자분께 감사드립니다.
금일 세미나에서는 Data2vec 논문에대한 세미나가 진행되었습니다. 우선 이미지, 자연어, 음성 등 다양한 도메인에 대한 통합 프레임워크를 제안했다는 것에서 흥미로운 주제 및 논문제목이였습니다. 우선 self supervised learning 자체가 도메인 상관하지않고 모든 분야에서 어떻게든 적용되는 트랜드로 알고있습니다. 본 논문은 여기에 최근에 다뤄지는 기법들을 최대한 많이 적용시킨 노력이 보였습니다. 특히 masked input prediction 을 distiling 방법을 이용해서 학습하게하는 것이 여러 방법론의 조합을 사용했다고 느껴지는 부분이였습니다. 세미나에서 간단한 예시들을 통해 설명을 잘 들었고, 느꼈던 점은 특별히 새로운 것이 아니더라도, 역시나 새로나오는 트랜드는 계속해서 따라가야함을 느낄수 있었던 발표였습니다. 좋은 발표 감사합니다.
오늘 세미나는 다양한 modality에서 사용할 수 있는 self-supervised learning 방법론인 data2vec에 대한 내용으로 진행되었습니다. 해당 방법론은 서로 다른 modality에 적용할 수 있게 하기 위해 encoder-decoder 구조를 teacher-student 구조로 대체하였습니다. 먼저 student model이 masking된 input을, teacher model은 원본 Input을 받아 각각 contextualized representation 도출합니다. 그 후, 각 input에 대한 masking된 부분을 예측하는 것이 아닌, student model의 input masking 위치에 해당하는 representation을 통해 teacher model의 representation을 예측하도록 합니다. 이렇게 contextualized latent representation을 예측함으로써 도메인에 상관없이 같은 구조로 학습 가능하게 됩니다. 실험 결과, 각 modality에 특화된 모델의 성능에 견줄 수 있는 좋은 성능을 보였고, modality의 구애를 받지 않는 만큼 multimodal task에서도 활용될 수 있을 것이라고 생각됩니다. 좋은 발표 감사합니다.
최근 meta ai가 modality에 dependent하지 않은 data2vec 연구를 공개하여 화제가 되었습니다. 기존의 DNN은 대용량의 unlabeled dataset을 통해 pretraining을 수행하며, self-supervised learning형태로 학습을 진행합니다. 하지만 modality별로 pretraining object가 상이하게 정의하였습니다.
data2vec은 논문의 제목처럼 모든 데이터를 동일한 형태로 학습할 수 있는 방법론을 제안합니다. 해당 논문은 이를 “contextualized latent representation”이라 명명하고있습니다. data2vec의 포인트는 teacher-student network라 생각합니다. modality에 상관없이 context representation 그 자체를 학습하기위해서는 teacher network를 따라갈 수 있도록 학습하는것이 가장 큰 핵심입니다. 또한이 때 teacher encoder k개를 취합하여 사용한것도 합리적이라 생각하며, domain specific model과 comparable한점이 인상깊었습니다. 최신 연구를 공유받을 수 있어 유익했습니다. 감사합니다.
금일 세미나는 여러 modality 데이터에 동일한 형태로 self-supervised learning을 할 수 있는 data2vec 구조를 제안하는 논문에 대한 리뷰로 진행되었습니다. 현재 self-supervised learning 방법론들은 각 modality에 특화되어 있지만, data2vec은 contextualized latent represenation을 예측하는 방식으로 학습됩니다. 이미지, 자연어, 오디오에 대한 전처리 방법은 modality마다 차이가 있으나, representation 학습과정에서는 모두 student model이 teacher model의 representation을 예측하는 방식으로 프레임워크가 구성되어 있습니다. Discussion 부분에서 언급해주신 것처럼 data2vec은 여러 modality를 통합하여 self-supervised learning을 할 수 있는 프레임워크라는 점에서 의의를 가지지만, input이 달라도 결과적으로 유사한 representation만 생성해내는 representation collapse 문제를 방지하기 위한 장치들이 더 필요할 것이라 생각됩니다. 3가지 modality를 단일 프레임워크로 representation을 학습할 수 있는 모델에 대해 소개해주셔서 흥미롭게 들었습니다. 좋은 발표 감사합니다.