Seminar

BOARD

[Paper Review] BEIT: BERT Pre-Training of Image Transformers

Paper Review

작성자

Yonggi Jeong

작성일

2022-03-29 20:30

조회

4270

1. 논문 제목 : BEIT: BERT Pre-Training of Image Transformers

2. 논문 Overview :

Visual Tokenizer : Discrete VAE
- 이미지를 tokenize 할 visual tokenizer 를 MIM 이전에 학습
- Tokenizer 로 discrete VAE 를 사용
- Codebook 학습 시 gumbel softmax 를 사용
Masked Image Modeling
- ViT 는 tokenizer 로 학습한 codebook vector 를 예측하도록 학습
- 입력 patch 를 일부 masking 하는 Masked Image Modeling 방식 제안
- 이웃한 patch 를 같이 masking 하는 blockwise masking 방식 사용
Result
- 제안 방법은 이전 연구들(Contrastive learning, Self-distillation) 보다 성능이 뛰어남
- 한 번에 하나의 ViT 만 사용되므로 메모리 효율성이 좋음
- 사전 학습된 모델의 attention map은 어떠한 label 정보 없이 물체의 위치나 경계 등을 구분할 수 있음

3. 발표자료 및 영상

발표자료 : 하단 첨부
발표영상 :

4. Reference

BEIT: BERT Pre-Training of Image Transformers Link
Neural Discrete Representation Learning (VQ-VAE) Link
Zero-Shot Text-to-Image Generation (DALL-E) Link
[Paper Review] data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (서승완 박사과정) Link

전체 22

Yukyung Lee

2022-05-19 11:24

이번 세미나는 BEiT를 주제로 진행되었습니다. 첫 발표임에도 불구하고 유익한 세미나를 준비해주셔서 많이 배울 수 있었습니다. BEiT는 BERT의 mlm과 거의 유사한 masked image modeling을 통해 pretraining을 수행하는데, 기존 모델과 tokenization에서 가장 큰 차이점을 갖습니다. 저도 처음 논문을 읽으며 가장 헷갈렸던 visual token 내용을 깔끔하게 정리해주셔서 어려웠던 부분을 정리할 수 있는 기회가 되었습니다. 감사합니다.
Jina Kim

2022-06-27 22:17

이번 세미나는 BEIT: BERT Pre-Training of Image Transformers에 대한 내용으로 진행되었습니다. BEIT는 BERT의 사전학습 방법인 masked language modeling을 이미지에 적용하는 방법을 사용하며, 이미지를 patch 단위로 masking하여 MLM을 수행합니다. 이를 통해 BERT와 같이 masking된 visual token을 예측하도록 pre-training을 진행하여, classification 등의 downstream task를 위해서 fine-tuning을 진행합니다. 이때 image tokenizing을 위해 discrete VAE를 사용하고 argmax 대신 softmax를 사용하여 gradient가 끊어지는 문제를 방지하였습니다. 자연어 분야의 모델이 비전으로 많이 넘어오고 있는데, 이 과정에서 도메인에 적합하게 변형하는 것이 성능에 있어서 관건인 것 같습니다. 좋은 발표 감사합니다.
Yunseung Lee

2022-03-31 16:54

금일 세미나는 BEiT: BERT Pre-Training of Image Transformers에 대한 소개로 진행되었습니다. BeiT는 언어모델인 BERT의 Masked Language Modeling task에서 아이디어를 vision에 접목시켜 Maksed Image Modeling task로 image transformer를 사전학습하는 BeiT를 제안합니다. 해당 모델은 마스킹된 patch가 transformer의 input으로 들어가면, transformer의 output은 각 patch embedding으로 간주하고, softmax classifier를 통해 visual token을 예측하게 됩니다. 학습 시에는 corrupted image에서 마스킹된 patch의 visual token을 예측하는 방식으로 학습되는데, 여기서 visual token을 얻기 위해서는 discrete VAE를 활용하게 됩니다. 이렇게 사전학습된 BeiT는 실험적으로 classifiation, segmentation에서 우수한 성능을 달성했습니다. 자연어처리에서 많이 쓰이던 MLM task의 아이디어를 차용하여 이미지 사전학습 모델에 적용한 것이 매우 인상적이었습니다. 또한, DALL-E에서 쓰이는 이미지에 활용 가능한 토크나이저에 대해서도 알 수 있었던 유익한 발표였던 것 같습니다. 좋은 발표 감사합니다.
Hyeongwon Kang

2022-04-02 13:40

이번 세미나는 BERT pre-training을 활용한 image transformer인 BEIT를 주제로 진행되었습니다. BEIT는 자연어 처리의 사전학습 방법인 Masked Language Modeling을 이미지에 적용하여 이미지의 패치를 masking하는 Masked Image Modeling을 통해 visual token을 예측하도록 하고, fine tuning을 통해 classification, segmentation task를 수행합니다. BEIT의 구조로는 ViT를 encoder로 사용하여 hidden representation 출력 후 이미지 토큰 예측을 위한 head layer 를 추가로 사용합니다. 이미지를 tokenize 하기 위해 본 방법론은 discrete VAE 구조와 학습방식을 사용하였습니다. discrete VAE를 통해 codebook vector를 학습하고 ViT가 codebook vector를 예측하게 하였습니다. 발표자분께서 이전 연구들, Knowledge distillation 방법론들에 대한 설명과 비교, BEIT 다음 연구들에 대해서도 소개해주셔서 일련의 연구 흐름을 알 수 있었던 것 같습니다. 좋은 발표 감사합니다.
Jaehee Kim

2022-04-02 19:40

이번 세미나는 텍스트 분야에서 널리 활용되는 사전학습 모델인 BERT를 이미지 도메인에 적용한 BEIT였습니다. 기본적인 구조는 일반적인 Vision Transformer를 따르되 인코더를 이용하고, MLM을 이미지 도메인에 적합하게 바꾼 MIM을 통해 사전학습을 진행합니다.
토크나이징의 경우 DALL-E에서 사용하는 VA-VAE를 이용하되 역전파가 가능하도록 gumbel softmax trick을 사용했습니다. MIM의 경우 BERT는 independent한 masking을 수행하지만 BEIT는 Span BERT에서 차용한 Blockwise maksing을 수행하고 있습니다. 이를 통해 마스킹 영역 내에 더 많은 유의미한 정보가 포함될 수 있도록 유도합니다.
실험 결과 classification과 segmentation에서 우수한 성능을 보이면서 block-wise masking이 유의미하고, 특히 segmentation에서 효과적임을 밝히고 있습니다.
버트의 구조를 이미지 분야에 적용할 때 단순히 그대로 가져오는 것이 아니라 이미지의 특성에 맞도록 MIM로 inductive bias를 주입하는 부분에서 흥미로운 것 같습니다. 발표자님께서 워낙 구조화하여 설명해주신 덕분에 전체적인 흐름을 따라갈 수 있었던 것 같습니다. 감사합니다.
Doyoon Kim

2022-04-03 16:40

이번 세미나에서는 ViT 계열 모델인 BEIT(BERT Pre-Training of Image Transformers)가 소개되었습니다. BEIT의 큰 특징 중 하나는 BERT의 사전학습 방식 중 하나인 Masked Language Modeling의 아이디어를 차용하여 visual token에 masking을 적용하여 이를 예측하도록 사전 학습을 실시합니다. Visual token이라는 개념을 처음 접하였는데 Vector Quantised VAE와 Gumbel softmax relation 과정이 조금은 생소하지만 꽤나 인상적이었습니다. 최근에 많이 체감하는 것이지만 정말 평소에 도메인을 넘나들며 다양한 개념을 잘 학습해 두어야 이와 같이 융합된 아이디어를 구현할 수 있는 것 같습니다. 일반 masking에서 나아가 span BERT에서의 masking을 재현한 blockwise masking으로 확장시킨 점도 인상적입니다. 실제로 이미지 분야에서도 이러한 사전학습을 통해 Downstream task에서의 성능이 높아지는 점이 신기합니다. 발표자 분의 차분하고 정돈된 설명으로 해당 내용 흥미롭게 들었습니다. 감사합니다.
Seungwan Seo

2022-04-03 22:03

금일 세미나는 MLM pretraining 방식을 차용하여 이미지를 사전 학습 시키는 BEiT: BERT Pre-Training of Image Transformers에 대해 알아보았습니다. Language model의 경우 단어 자체가 이산적이기 때문에 이를 이산적인 토큰으로 변경하는 작업이 매우 용이합니다. 하지만 비전 데이터는 인풋이 연속적인 특성을 지니고 있기 때문에 이를 직접적으로 토큰화 하는 것은 매우 어렵습니다. 본 논문에서는 이를 해소하기 위해 VAE를 사용합니다. 직관적으로 생각했을 때 bottleneck 구조가 들어가면서 정보 손실이 있어 모델링에 불리할 것 같지만, 다른 연구들에서 밝힌 것처럼 이는 이미지의 중복성을 제거하는 효과를 지닌다고 해석할 수 있을 것 같습니다. 이러한 작업 이후에는 LM과 같은 방식으로 학습이 진행되는데 아이디어와 성능 모두 흥미로운 연구였습니다.
Yookyung Kho

2022-04-03 23:51

이번 세미나는 이미지 분야에서의 사전학습 연구 BEIT: BERT Pre-Training of Image Transformers를 주제로 진행되었습니다. BEIT는 discrete VAE를 통해 입력 이미지를 visual token으로 변환하고 BERT의 사전학습 task 중 하나인 masked language model을 이미지에 적용하여 Masked Image Modeling을 수행합니다. 이때 약 40%의 이미지 patch를 랜덤하게 마스킹하고, 이를 ViT 기반 encoder의 입력으로 두어 비지도 학습 세팅 하에서 tokenizer는 고정된 상태로 Vision Transformer와 softmax classifier를 거쳐 visual token을 예측하도록 학습을 진행합니다. Encoder output을 discrete하게 매핑할 경우 gradient가 끊어지는 문제를 방지하기 위해 학습 시에 gumbel softmax를 사용합니다. 이렇게 사전학습된 모델은 fine-tuning 과정을 거쳐 downstream task(classification, segmentation)에서 성능 향상을 이루었습니다. BEIT 이후의 연구 흐름으로 knowledge distillation과의 차이점 및 이후 연구인 data2vec과의 연결 지점을 짚어주셔서 이해하는데 도움이 되었습니다.
또한 개인적으로 느낀 점을 공유하자면, 비전 분야에서는 이미지 input이 연속적인 특성을 가지기 때문에 자연어처리의 tokenizing을 적용하기 위해 다른 방식을 차용하는 것과 비슷하게, 자연어처리에서는 text input의 이산적인 특성으로 인해 연속적인 노이즈 주입이 어려워 data augmentation을 수행하기 위해 다른 방식을 차용합니다. 이렇듯 한 분야에서는 당연한 특성이 다른 분야에서는 방법론의 나이브한 적용을 저지하는 장애물이 되기도 하고, 또 그것을 분야에 맞게 변형시키는 연구들이 등장하는 배경이 되기도 한다는 점에서 흥미롭게 느껴졌습니다. 유익한 발표 진행해주셔서 감사합니다.
Subin Kim

2022-04-04 00:02

이번 세미나에서 소개된 논문은 BEIT: BERT Pre-Training of Image Transformers입니다. 본 논문에서는 Vision Transformer를 기반으로 한 사전학습 모델을 제안하고 있습니다. ViT를 기반으로, 이미지를 tokenize하기 위해 discrete VAE 구조를 사용하고 있습니다. 여기서 codebook을 사용하는데, gradient가 끊기는 것을 방지하기 위해 gumbel softmax를 함께 사용하고 있습니다. 사전학습 방식으로는 Masked Image Modeling task를 사용하고 있는데, 이미지의 patch 또는 patch span을 masking한 것의 codebook vector를 예측하는 방식으로 tokenizer로 학습한 codebook vector를 예측하도록 했습니다. 이 방식은 contrastive learning이나 self-distillation 을 사용한 선행 연구보다 뛰어났으며 detection이나 segmentation downstream task에서도 좋은 성능을 보였습니다. ViT Encoder와 VAE 구조를 잘 접목한 점이 흥미로운 논문이었습니다. 좋은 발표 감사합니다 .
Euisuk Chung

2022-04-04 01:45

이번 세미나에서는 “BEiT: BERT Pre-Training of Image Transformers”를 다루어 주셨습니다. BEiT는 BERT의 MLM(Masked Language Modeling) 개념을 vision task에 접목시켜 MIM(Masked Image Modeling)을 제안합니다. 해당 모델은 이미지를 tokenizing하기 위해 DALL-E에서도 쓰이는 visual tokenizer를 사용합니다. 해당 방법론은 VQ-VAE에서 소개되었으며 이는 도메인 (continuous) 데이터를 discrete latent variable로 mapping하게 됩니다. 또한, cookbook vector 사용 시 gradient가 끊어지는 문제를 막기 위해 argmax가 아닌 softmax를 사용하여 모델을 학습하게 됩니다. 개인적으로 신기했던 것은 기존의 MLM이 15%를 masking을 해주는 것에 비해 비전 모델들(ex. Masked Autoencoder, BEiT)에서는 Masking을 이미지의 40%~80%까지 masking해주었는데 성능이 잘 나온다는 점이 신기했던 것 같습니다. 앞부분에서 Background 및 개요를 소개해주셔서 흐름을 파악하는데 좋았습니다. 좋은 발표 감사합니다.
Hoonsang Yoon

2022-04-04 11:05

본 세미나는 자연어에서 시작한 Transformer가 Vision Transformer로 활용이 되는 것과 같이, BERT의 훈련 방식을 차용하여 이미지 Transformer를 사전 훈련 시키는 방법을 제안한 BEIT를 소개합니다. 확실히 BERT의 절차에서 도메인만 이미지로 변환했다고 해도 손색이 없으며, 이는 Tokenizing부터 시작합니다. 언어 대신 이미지를 토크나이징 하는 것이 다소 어색할 수 있으나 이는 VQ-VAE등과 같은 Discrete VAE로 패치를 특정 숫자로 변환하는 과정을 의미합니다. 패치에 대한 토큰을 준비하면 이에 대한 Masked Image Modeling을 적용하며 이는 일부 패치를 랜덤하게 마스킹하고 vision transformer를 통해 예측하는 과정을 의미합니다. 즉, 손상된 입력 값을 다시 복원하는 과정을 통해 사전 훈련을 진행하는 BERT와 과정 상으로 매우 유사하며 의미를 확장시키면 Patch 대신 Block을 마스킹하여 SpanBERT와 같은 훈련을 진행할 수 있습니다. 배경과 이후 연구에 대한 정리까지 잘 나타나 좋은 세미나였다고 생각합니다. 감사합니다.
Takyoung Kim

2022-04-04 11:18

이미지 토큰에 대해 자연어처리에서 많이 사용되어 오던 masked modeling을 수행한 BEiT를 소개해주셨습니다. Preprint로 올라온 시간이 꽤 되어 후속연구들이 많이 등장하였지만, 비교 모델로서 지속적으로 언급되는 것 같습니다. VQ-VAE를 기반의 visual tokenizer를 사용하여 이미지 패치를 토큰화하고, ViT 모델에 통과시켜 마스킹된 패치에 대한 예측을 수행합니다. 상당 부분 BERT의 pretraining 구조를 유지하면서도 다른 modality를 갖는 데이터에 대해서 좋은 성능을 유지하는 것이 인상깊었습니다. 본격적으로 transformer 구조가 이미지 도메인 내 다양한 downstream task에 적용되는 시기에 중요한 역할을 한 논문이라 생각합니다. 발표 잘 들었습니다.
Heejeong Choi

2022-04-04 14:49

금일 세미나는 "BEIT: BERT Pre-Training of Image Transformers"라는 주제로 진행되었습니다. 본 발표에서는 image tokenization과 masked image modeling을 통해 Image Transformer를 pre-training하는 방법론인 BEIT가 소개되었습니다. BEIT는 pretrained discrete VAE의 codebook을 기반으로 이미지를 patch 단위로 tokenize한 후, 이를 image Transformer의 input으로 사용하여 masked image patch에 대한 visual token을 예측함으로써 image Transformer를 pre-training 합니다. 개인적으로 해당 방법론에서 이미지 patch를 특정 개수의 vector로 맵핑하는 codebook을 기반으로 하는 discrete VAE 부분이 가장 흥미로웠습니다. NLP의 경우 동일한 단어를 하나의 embedding vector로 맵핑하기 때문에 lookup table의 사용이 매우 자연스럽지만, 이미지는 continuous하기 때문에 codebook을 사용하여 각자 다른 patch를 동일한 vector로 매핑하는 것이 타당한가에 대한 의문이 들었습니다. 해당 부분에 대해 생각해보았을 때, codebook을 구성하는 vector들이 patch들의 대표적인 정보를 나타낸다면 오히려 다른 patch들을 대표적인 특징 vector로 맵핑하는 것이 task를 수행하는데 유리하고 noise에 강건할 수 있겠다는 생각이 들었습니다. 해당 부분과 관련하여 실험적으로 확인이 가능할 것 같은데 이와 관련된 실험이 있으면 좋을 것 같다는 생각도 들었습니다. 좋은 발표 감사합니다.
Jaehyuk Heo

2022-04-04 16:17

금일 세미나는 "BEIT: BERT Pre-Training of Image Transformers" 논문에 대해 소개해주셨습니다. 이번 논문은 Vision Transformer를 기존 Transformer의 Masked Language Modeling 방법과 같이 학습할 수 있도록 제안한 방법입니다. 세미나를 들으면서 가장 궁금했던 부분이 바로 tokenizer를 vision에서 어떻게 구성하는가? 였는데 이를 discrete VAE로 해결하였습니다. 적용한 방법과 성능이 꽤나 인상적이었지만 tokenizer에 대한 부분에서 과연 효율적인 방법일까라는 생각이 들었습니다. 자연어처리에서 tokenizer와는 다른 방법이고 closed form이 아니기 때문에 discrete VAE의 성능에 따라 결과가 바뀌지 않을까 하는 점에서 의문이 들었습니다. 한편 해당 방법이 괜찮다면 computer vision에서 TAPT나 DAPT를 적용해볼 수 있지 않을까 라는 생각도 들었습니다. 첫 발표에 좋은 내용 공유해주셔서 감사합니다.
Sunwoo Kim

2022-04-04 20:22

이번 세미나에서는 BEIT: BERT Pre-Training of Image Transformers 논문을 다루어 주셨습니다. NLP에서 단어나 문장을 tokenize한다면, BEIT에서는 "이미지"를 visual token으로 바꾸어줍니다. 이때, discrete VAE 구조와 학습방식을 사용하게 됩니다. BEIT의 encoder로는 vision transformer를 사용하고, 이미지 토큰 예측을 위한 head layer를 추가해주게 됩니다. NLP에서는 mlm을 했다면, BEIT에서는 mim(masked image modeling)을 하게 됩니다. tokenize 이후에, 약 40%의 패치를 마스킹 한 후, 앞서말한 vision transformer와 softmax classifier를 이용해 masked image에 대한 visual token을 예측하는 것입니다. 결과적으로 contrastive learning이나 self-distillation과 같은 기존의 방법들보다 뛰어난 성능을 보였다는 점에서 의의가 있습니다. NLP에서의 BERT가 vision에서는 어떻게 확장될 수 있는지 볼 수 있는 유이간 시간이었던 것 같습니다. 시간에 따른 Image representation learning의 흐름과 BEIT의 세세한 부분까지 다루어 주셔서 이해에 많은 도움이 된 것 같습니다. 좋은 발표 감사합니다!
Seonggye Lee

2022-04-04 20:33

금일 세미나는 "BEIT: BERT Pre-Training of Image Transformers" 논문에 대한 내용으로 진행되었습니다. BEIT는 약자에서 알 수 있듯이 자연어 처리에서 많이 쓰이고 있는 BERT를 image domain에서 적용한 model 입니다. BERT에서 진행하는 토큰화, Masking 을 vision 분야에 접목시켜 성능을 크게 향상 시켰습니다. 토큰화 부분의 경우 Tokenizer로 discret VAE를 사용하였으며 Masking 부분에서도 BERT의 MLM 단계와 비슷하게 MIM(Masked Image Modeling)을 진행하였습니다. MIM의 경우 ViT 기반 encoder가 masked image를 입력으로 하여, Tokenizer가 학습한 visual token을 예측하도록 학습합니다.
본 연구의 가장 핵심적인 contribution은 Transformer 구조를 image domain에 적용한 부분이라고 생각합니다. BEIT를 통하여 Transformer를 image domain task에 활용하는 많은 연구들이 나오길 기대합니다. 개인적으로 Vision 분야에 대한 지식이 많이 없었는데 본 세미나를 통해 어느정도 흐름을 잡을 수 있었습니다. 좋은 발표 감사합니다.
Gunho No

2022-04-05 17:52

이번 세미나에서는 BEIT: BERT Pre-Training of Image Transformers 논문을 주제로 기존 NLP 분야에서 사용되던 Pre-Trained Transformers 모델의 아이디어를 image 도메인에 적용한 BEIT 모델을 소개해 주셨습니다. BERT의 학습과정에서는 문장의 일정 영역을 가리는 Masked Language Modeling을 수행하는데, 이 방식을 Image에 적용한 것입니다. Image patch의 일부분을 masking하고 이를 예측하도록 사전학습을 수행하는 것입니다. Visual Tokenizer는 MIM 이전에 미리 학습되며 Discrete VAE를 사용하였습니다. MIM 과정에서는 ViT가 앞선 tokenizer의 학습 결과인 codebook vector를 예측하도록 학습됩니다. 이러한 방식으로 BEIT는 다양한 Downstream task에서 높은 성능을 달성합니다. 요즘 다양한 연구와 세미나에서 도메인 사이에 아이디어를 공유하는 경우를 많이 발견하게 되어, 제가 관심있는 분야 이외에도 열심히 공부해야겠다고 다시금 생각을 하게 되었습니다. 좋은 발표 감사합니다.
Suzie Oh

2022-04-06 04:30

이번 세미나는 NLP 분야에서 대표적으로 사용되는 PLM인 BERT를 비전 분야에 적용한 BEIT: BERT Pre-Training of Image Transformers 논문으로 진행되었습니다. BEIT 모델은 BERT의 pre-training 방식인 Masked Language Modeling 방법에 기반하여 encoder 구조로 Vision Transformer를 사용해 Patch 별 hidden representation을 출력해 이미지 토큰을 예측하는 layer가 추가된 구조로 되어있습니다. input token의 15%를 마스킹하는 BERT의 MLM과 달리 약 40%의 patch를 마스킹한다는 점이 눈여겨볼 부분인 것 같습니다. 이미지는 자연어와 달리 어떻게 끊어서 봐야한다는 기준이 명시적이지 않아 어떻게 토크나이징해주는지 궁금했는데 discrete VAE 구조를 차용해서 토크나이징을 진행하는 점이 인상 깊었습니다. 또한, NLP 분야의 논문인 SpanBERT처럼 image patch 마스킹 시 block 단위로 마스킹하는 부분에서 NLP 분야의 아이디어를 Vision에 적용한 점이 참신했습니다. 해당 논문처럼 다른 도메인 간의 아이디어를 활용하는 연구가 앞으로도 많이 진행될 거라 생각되며, NLP 뿐만 아니라 다른 분야의 논문도 follow up 해야겠다는 생각을 하게 됐습니다. 좋은 발표 감사합니다.
Kyoungchan Park

2022-04-06 23:48

이번 세미나는 BEIT라는 모델에 대해 소개해주셨습니다. 자연어 처리에 널리 쓰이던 구조들을 이미지에 적용하기 위한 시도들이 계속되고 있는데, 본 논문 또한 그 중 하나라고 할 수 있었습니다. BERT의 경우에는 자연어 처리에 적용될 때 masked language modeling을 수행하는데, 이 방식을 이미지에 적용한 것이 본 모델의 핵심이었습니다. 이미지를 patch 단위로 분할하고 patch 단위의 masking을 가해 masking된 patch를 예측하도록 사전 학습을 진행하는 것이 self-supervised learning 기법과 매우 유사하다고 생각했습니다. BERT 구조를 이미지에 적용할 때 어떻게 이미지에 대한 representation을 잘 학습할 수 있을 것인가에 대한 고민을 많이 한 논문이라는 생각이 들었습니다. 좋은 발표 감사드립니다.
Jeongseob Kim

2022-04-11 17:49

금일 세미나는 BEIT: BERT Pre-Training of Image Transformers연구에 대해 진행되었습니다. BEIT는 이미지 데이터에 대한 pre-training 모델을 구성하는 것에 관한 연구 입니다. 다만 BERT를 기반으로 구조를 짜고, pre-training도 역시 BERT의 학습 전략을 따르고 있다는 것이 특징이라고 볼 수 있을 것 같습니다. 개인적으로 흥미로웠던 점은 이미지 샘플을 토크나이징 하는 과정이었습니다. DALL-E와 마찬가지로 discrete VAE를 활용했습니다. NLP 대상 vocabulary가 이미지 도메인에서는 VQ-VAE의 codebook으로 대체될 수 있다는 점이 인상적이었습니다. 이미 활용된 케이스가 많은 접근이긴 하지만, 앞으로 유용하게 참고해서 사용할 수 있을 것으로 기대합니다. 이후 Masked Image Modeling과정은 지난 BERT의 pretraining전략과 유사해 이해하는 데 어려움은 없었습니다. image의 embedding과정에 CNN기반과 Transformer기반으로 크게 나뉘는 것 같은 데, 과연 어느 것이 더 효율적인가… 어느 것이 다른 것인가 하는 고민이 있을 것 같습니다. 정답은 없겠지만, 다양한 측면에서 실험에 사용되는 것을 보면 본 연구처럼 ViT 구조로 가져가는 것도 정말 효과적이구나.. 이런 생각이 듭니다. 발표 과정에서 다양한 reference연구들이 있었는 데, 발표자 분께서 놓치지 않고 모두 잘 설명해주셔서 감사했습니다. 더불어 BEIT 연구 이후의 흐름에 대해서도 잘 짚어주셔서 이해에 도움이 많이 되었습니다. 좋은 발표 해주신 발표자분께 감사드립니다. 좋은 발표 잘 들었습니다.
Kyoosung So

2022-04-11 22:38

이번 세미나에서는 "BEIT: BERT Pre-training of Image Transformers"라는 논문에 대하여 소개해주셨습니다. BEIT는 이전에 스터디에서 한 번 접한 적이 있는 내용인데 약간 이해가 안갔던 부분이 있었기에 더욱 반가운 세미나였습니다. 우선 BEIT는 pretraining을 위해 제안된 방법론이라고 할 수 있는데 크게 Masked Language Modeling의 방법과 유사하게 진행됩니다. 가장 신기한 부분은 무엇보다 tokenizing 부분인데, discrete VAE를 이용하여 마치 하나의 패치를 manifold에 mapping하는 것과 유사한 역할을 하는 것으로 이해했습니다. 그리고 마스킹 비율을 높게 가져가게 되는데, 특히 요새 ViT 기반의 Masked modeling이 많이 연구가 되고 있는 것과 맥락이 비슷하다고 생각합니다. NLP 분야의 이론이나 방법론이 다른 도메인에 이렇게 잘 적용되는 것을 보면 언어와 이미지 간 벽이 있다고 생각했던 부분이 딥러닝이라는 통일된 도메인으로 엮일 수 있음에 감탄합니다. 좋은 발표 감사합니다.
Jungho Lee

2022-04-11 23:05

BEIT: BERT Pre-training of Image Transformers 를 주제로 세미나를 진행했습니다. VIT 로 대표되는 구조에 Pretraining 을 위해 제안된 방법론이며 제목에서도 알 수 있듯 masked 방식을 사용하는 bert 와 유사합니다. visual tokenizer 를 위해 Discrete VAE 를 사용하고, Blockwise making 을 진행합니다. masking 진행시 spanBERT 처럼 특정한 파라메터로 예시를 통해 랜덤하게 만들어지는 것을 볼 수 있었고, vision data 의 특성에 잘 맞는 방법이라고 생각했습니다. 사실 처음 제목을 보고 든 생각은 이미지에서 token 을 구성하는것이 NLP 에서 Token 이 가지고있는 의미가 다르다고 생각해서, 기존 BERT 처럼 Pretrain 을 하는것이 가능한가에 대한 의문이 있었는데, 세미나에서도 유사한 질문이 나왔던것 같습니다. 아직까진 이 부분에 대해서 완벽하게 개인적인 이해를 못했지만, VIT 의 Pretrain 을 통한 효율성은 검증이 되었습니다. 다만 다른 down stream task 에도 광범위하게 적용하기에는 아직까진 더 연구가 필요하지않나 생각합니다. 좋은발표감사합니다.

« [Paper Review] CoST: Contrastive Learning of Disentangled Seasonal-Trend Representations for Time Series Forecasting

[Paper Review] ViDT: An Efficient and Effective Fully Transformer-based Object Detector »

목록보기

전체 513

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11128	관리자	2020.03.12	0	11128
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 9762	관리자	2020.03.12	0	9762
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10849	관리자	2020.03.12	0	10849
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (5) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 63	Jaewon Cheon	2025.06.27	0	63
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 246	Minjeong Ma	2025.06.07	0	246
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 36	Minjeong Ma	2025.06.02	0	36
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 33	Kiyoon Jeong	2025.06.02	0	33
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33
505	[Rehearsal] 석사학위 논문심사 - 이상민 (21) SangMin Lee \| 2025.06.02 \| 추천 0 \| 조회 34	SangMin Lee	2025.06.02	0	34
504	[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14) Siyul Sung \| 2025.05.31 \| 추천 0 \| 조회 330	Siyul Sung	2025.05.31	0	330
503	[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16) Woojun Lee \| 2025.05.20 \| 추천 0 \| 조회 319	Woojun Lee	2025.05.20	0	319
502	[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16) Jinwoo Park \| 2025.05.16 \| 추천 0 \| 조회 290	Jinwoo Park	2025.05.16	0	290
501	[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18) Hun Im \| 2025.05.15 \| 추천 0 \| 조회 282	Hun Im	2025.05.15	0	282

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호