번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10473
|
관리자 | 2020.03.12 | 0 | 10473 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9084
|
관리자 | 2020.03.12 | 0 | 9084 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10202
|
관리자 | 2020.03.12 | 0 | 10202 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 23
|
Junyeong Son | 2025.05.08 | 0 | 23 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 104
|
Doyoon Kim | 2025.05.01 | 0 | 104 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 212
|
Sunghun Lim | 2025.04.24 | 0 | 212 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 161
|
Suyeon Shin | 2025.04.21 | 0 | 161 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 188
|
Woongchan Nam | 2025.04.16 | 0 | 188 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 365
|
Kiyoon Jeong | 2025.04.16 | 0 | 365 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 385
|
Hyeongwon Kang | 2025.04.09 | 0 | 385 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 382
|
Jaehyuk Heo | 2025.04.02 | 0 | 382 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 373
|
Jaehee Kim | 2025.04.02 | 0 | 373 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 303
|
Jungho Lee | 2025.04.02 | 0 | 303 |
금일 세미나는 "Masked Image Modeling"이라는 주제로 진행되었습니다. 본 발표에서는 masked image modeling 기반의 self-supervised visual learning을 수행한 모델 CIM과 Spark가 소개되었습니다. 개인적으로는 두 모델 중 Spark가 흥미로웠습니다. Spark에서는 방법론을 제안하기에 앞서 patch 단위로 masking한 input에 계층적인 convolution 연산을 적용하면 masking 영역이 사라져 masking 전후의 distribution shift가 발생하는 문제점을 지적하였습니다. 해당 논문에서는 masking 영역은 제외하고 convolution 연산을 수행하는 sparse convolution을 제안하여 이러한 문제를 해결하였습니다. 요즘 time series forecasting 분야에서 Transformer의 연산량을 감소시키기 위해 다양한 형태의 sparse attention이 제안되고 있는데, Spark에서는 sparse한 연산을 다른 목적을 위해 활용한 부분이 흥미로웠습니다. 좋은 발표 감사합니다.
이번 세미나는 'Masked Image Modeling'에 대해 소개해주셨습니다. 본 발표에선 비전 영역에서 self-supervised learning을 위한 방법론인 CIM과 Spark를 제안합니다. 기존 방법론에선 패치 단위로 이미지를 마스킹하여 reconstruction 과정에서 vit를 사용해야하는 제약이 있었으나, CIM은 BEIT 인코더와 image tokenizer를 활용하여 corrupted image를 생성하고, 이를 enhancer를 사용하여 복원하는 구조를 가집니다. SPARK는 패치 단위로 마스킹이 된 이미지에 convolution을 수행하는 것이 적합히지 않음을 주장하였습니다. 따라서, 마스킹 된 패치를 제외하고 이미지를 convolution할 수 있는 sparse convolution을 기반으로 하는 hierarchical encoding, decoding을 사용합니다. SPARK를 활용하여 MiM task를 학습한 결과, ViT보다 좋은 성능을 기록한 점이 인상 깊었습니다. Time Series Representation learning을 공부할 때도 NLP의 MLM task를 시계열 데이터에 어떻게 적용하는가에 대한 연구가 진행되고 있는 것을 보았는데 본 발표에서 귀중한 insight를 얻어갈 수 있어서 좋았습니다. 좋은 발표 감사합니다.
금일 세미나 시간에는 기존 NLP에서 사용되는 Transformer를 Vision분야에 적용한 Masked Image Modeling과 관련하여 2개의 논문을 주제로 진행되었습니다. 과거 Vision분야의 연구들이 NLP에서 그 영향을 가지는 것과 같이 NLP에서의 transformer를 Vision task에 적용한 사례라고 볼 수 있습니다. 처음으로 소개한 “Corrupted Image Modeling for Self-Supervised Visual Pre-Training” 논문에서는 인위적으로 손상된 이미지를 기존에 mask token으로 사용하여 학습하는 대신에 훈련이 가능한 BeIT 모듈의 출력분포에 의한 가능한 대안의 픽셀로 대체하게 됩니다. 이후 enhancer 파트에서 이미지의 원본 이미지 픽셀을 복구하거나 각 토큰이 생성기로 생성된 샘플을 통해 대체 가능한지 여부를 학습하는 과정을 통해 학습이 진행됩니다. 두 번째로 소개된 논문은 “Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling”논문에 대해서 다루어 보았습니다. NLP에서 큰 성공을 거둔 transformer이지만, 이를 단순히 이미지에 적용하기에는 어려움이 존재합니다. Masked image를 단순 convolution연산으로 적용하기에는 부적합한 문제점이 존재하며, single-scale의 feature를 사용하는 BERT구조는 Vision에서의 hierarchical구조의 CNN구조에 적합하지 않은 문제점을 가지고 있습니다. 해당 연구에서는 Sparse CNN 구조를 통해 masking으로 인한 distribution shift를 최소화하였으며, 과거 U-net구조를 따라 서로 다른 multi-scale의 feature map셋을 생성하는 encoder와 이를 위한 projection layer로 구성된 decoder를 통해 이미지 reconstruction을 학습하였습니다. NLP에서의 Transformer를 Vision에서도 이어가기 위하 Vision Transformers 관련 2가지 논문들은 자연어와 이미지처리에서의 차이로 인해 발생하는 문제점을 각각 서로 다른 아이디어를 통해서 극복하여 좋은 성능을 보여주었습니다. 세미나시간에 교수님이 언급하신 것처럼 어느 특정 분야에서의 성공적인 연구를 어떻게 하면 잘 transfer할 수 있을지 고민해보는 것이 좋은 연구 아이디어가 될 수 있기에, 다양한 분야의 연구들을 follow up하는데 소홀해지면 안되겠습니다.
이번 세미나는 ‘Masked Image Modeling’을 주제로 ‘Corrupted Image Modeling’과 ‘Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling’ 두개의 논문을 소개해주었습니다. CIM은 generator를 통해서 masked patch를 복원하여 Enhancer를 통해서 discriminative task를 진행합니다. genrator를 사용함으로써 enhancer에 입력될 이미지의 다양성을 높일 수 있었습니다. crop, resize와 같은 방법은 discrete 방법이라고 생각되었고 generator와 같은 방식을 사용하여 variants의 분포를 더 넓힐 수 있다는 생각이 들었습니다. 해당 방법에서 decoder 입력 전에 사용된 tokenizer와 codebook또한 흥미로웠습니다. nlp의 tokenizer개념과 비교할 수 있었으며 nlp의 vocab(3만~5만)보다는 작은 사이즈(8192)로 사용되고 있었습니다. 다음으로 Spark방법으로 BERT스타일(MLM)을 CNN에 그대로 적용하기 어렵다는 점을 지적하며 sparse masked modeling with hierarchy를 제안하였습니다. BERT-style을 사용할 경우 distribution shift가 발생하며 conv 레이어를 지날수록 zero masking부분이 사라지게 됩니다. 이러한 문제를 보완하기 위해 multi-scale feature map이 decoder의 input으로 사용되고 decoder는 UNet구조를 사용합니다. 해당 세미나를 통해 image에서 사용되는 masked image modeling을 배울 수 있었고 이것은 NLP에 적용하게 된다면 inter relationship과 intra relationship을 multi-scale feature map과 연관하여 풀 수 있을 수 있겠다는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나는 Masked Image Modeling이라는 주제를 바탕으로 진행되었습니다. 먼저 Masked Image Modeling은 NLP에서 Pretext task로 사용되던 Masked Language Model을 Image domain에 적용한 것으로, 보통 ViT 구조로 이루어집니다. 이때 Encoder-Decoder 구조의 VAE가 주로 적용되는데, Encoder에는 Masking되지 않은 Patch만, Decoder에는 Masking 된 Patch도 함께 포함하여 Input으로 들어가서 원본 이미지로의 Reconstruction loss를 최소화할 수 있도록 학습되게 됩니다. 처음으로 소개해주신 CIM에서는 Masking 된 영역을 Small BEiT 구조로 dVAE의 Visual token을 Target으로 학습하는 Generator에 넣어서 복원한 후, 이렇게 복원한 Corrupted Image를 Enhancer의 입력으로 사용하는데, 이 Enhancer는 Reconstruction loss와 Generator에서 생성된 토큰을 구분하는 Discriminative loss를 통해 학습하게 됩니다. 최종적으로 Donwstream task에 적용할 때는 Enhancer만을 사용하여 이루어지는 구조를 하고 있었습니다. 두 번째 모델인 Spark에서는 Sparse Convolution을 사용하여 Backbone 모델의 수정 없이 CNN에 적용 가능한 Masked Image Modeling 방법을 제안하고 있는데, 이때 CNN Encoder의 hierarchical 구조를 유지한 Multi-scale output을 Decoder의 Input으로 사용하고 있었습니다. Masked Image Modeling을 잘 알지 못하는 저였지만, 발표자분이 기초부터 시작하여 전체적으로 탄탄하게 다루어주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.
해당 세미나는 정용기 발표자님께서 "Masked Image Modeling"이라는 주제를 바탕으로 2가지 논문으로 진행되었습니다. 먼저 CIM은 Masking된 영역을 generator로 복원하고, Enhancer의 입력으로 사용하여 reconstruction loss와 disriminative loss를 통해 학습하고 있습니다. 두 번째 논문인 Spark는 Convolution연산은 masked input image를 처리하기에 적절하지 않기에, masking 영역을 제외하고 연산하는 sparse convolution을 적용하여 개선하였습니다. 해당 구조를 들으면서 NLP의 MLM이 CV에서 적용되는 점이 흥미로웠고, Masked image modeling의 핵심 역할은 Masking이 상대적으로 필요한 영역만을 추출하여 필요하지 않은 영역 간 대비하여 학습하는 것이 중요하다고 느꼈습니다. NLP BERT 모델에서 Masking을 씌울 때도, input 단에서 mask를 씌우는 기준 자체를 학습하고 해당 기준이 넘어가는 mask를 씌운다면 불필요한 mask를 제외하고 모델이 학습하는 과정에서 좀 더 robust한 성능을 낼 수 있다고 생각하였습니다. 마지막으로 Masked Image modeling이 처음 들어본 task였는데, 자세한 설명과 model을 구체적으로 설명해주셔서 이해하기 쉬웠습니다. 좋은 세미나 준비해주셔서 감사합니다.
이번 세미나는 Masked Image Modeling이라는 주제로 진행되었습니다. 본 발표에서는 이미지 도메인에서의 자기 지도 학습 방법으로서 CIM과 Spark 두 가지 모델을 소개하였습니다. CIM에서는 generator를 사용하여 masking된 영역을 복원한 후, Enhancer를 통해 이미지의 reconstruction과 discriminative loss를 최소화하는 방향으로 학습을 진행하였습니다. 반면에 Spark에서는 기존의 convolution 연산이 masking된 영역에 적합하지 않다는 문제를 지적하고, 이를 해결하기 위해 sparse convolution을 도입하여 효과적인 Masked Image Modeling을 수행하였습니다. 두 모델 모두 NLP에서 사용되는 Masked Language Modeling 기법을 이미지 처리에 활용하여 독특한 접근 방식을 보여주었습니다. 이러한 연구들을 통해 자연어 처리와 이미지 처리 분야에서의 상호 영향을 살펴보는 것이 매우 유익하였습니다. 발표자분께서 세심한 설명과 함께 직관적인 예시를 들어주셔서 이해하기 쉬웠습니다. 좋은 발표 감사합니다.
이번 세미나는 MIM 관련 연구들을 소개해주셨습니다. CIM은 generator를 활용하여 masking된 영역을 복원한 corrupted image를 다시 enhancer의 입력으로 사용하는 방식을 활용하였는데 기존 방식과 다르게 masking된 영역이 reconstruction된 이미지를 입력으로 받아 masking된 영역을 분류할 뿐만 아니라 해당 영역의 실제 픽셀 값을 예측하도록 함으로써 enhancer가 좀 더 질 높은 representation을 학습할 수 있도록 한 점이 인상 깊었습니다. 또한 enhancer의 입력으로 들어가는 이미지의 다양성을 위하여 stochastic sampling 방법을 사용한 점도 간단하면서도 효과적인 방법이라고 생각하였습니다. 해당 self-supervised learning 방법론 같은 경우는 여러가지 task에 응용하여 적용할 수 있지 않을까라는 생각을 하였습니다. 두 번째로 Spark 방법론의 경우에는 기존 convolution 연산의 구조적 한계점을 지적하고 이를 해결하기 위한 sparse convolution을 제안하였는데 NLP에서 사용되어오던 기법을 이미지에 잘 적용했다라는 생각이 들었습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 Masked autoencoder 방식의 모델들에서 발전방향과 현재 연구점 그리고, 해당 분야에서의 몇가지 이슈에 대해서 다루었습니다. Corrupted Image Modeling for Self-Supervised Visual Pre-Training 논문을 통해서 이미지에서도 직접적인 이미지 복원보다도 모델이 학습을 잘 하기 위해서는 denoising autoencoder 와 같은 접근을 하는 것이 더 나은 것을 직관적으로 알 수 있게 설명했습니다. 우선 이전에도 설명 해준 BEiT 논문을 통해서 이미지를 토크나이징 한 후 Visual token 을 예측하는 방식을 다시 한번 더 소개해 주었습니다. 이 때 decoder 를 통해서 나오는 이미지를 corrupted image 가 나오는 것을 확인 할 수 있었는데, 같은 masking input 이더라도 다양한 이미지가 생성되는 것을 확인 할 수 있었습니다. 이를 통해 인코더가 받는 이미지의 다양성이 증가된다고 설명했고, 개인적으로는 Down-stream task 에서 모델이 더 강화될 수 있는 augmentation 효과와 같다고 생각합니다. 즉, Corrupted image 는 단순히 mask 를 바꿔 input 을 여러개로 augmentation 한다는 관점에서 BEiT 의 특징을 잘 반영하여 더 잘 만들어진 augmentation 과 결을 같이 한다고 생각했습니다. 이러한 image visual token 아이디어를 잘 활용하면 NLP 에서 좋은 성과를 내는 방법론들을 이미지에 잘 적용할 것 같습니다. 좋은 발표 감사합니다.
본 세미나에서는 Masked Image Modeling이라는 주제로 Corrupted Image Modeling for Self-Supervised Visual Pre-Training, Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling 이라는 주제의 논문에 대한 리뷰를 진행하였습니다. Corrupted Image Modeling for Self-Supervised Visual Pre-Training에서는 CIM 이라는 framework가 제안되었습니다. 해당 framework에서는 Masking 된 영역을 Generator로 복원한 이미지를 Enhancer의 입력으로 사용하였습니다. 이 과정에서 Generator는 Small BEiT 구조로 dVAE의 visual token을 target으로 학습됩니다. 또한 Enhancer는 reconstruction loss와 Generator에서 생성된 토큰을 구분하는 discriminative loss를 통해 학습이 진행됩니다. 두번째 논문인 Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling에서는 Spark라는 framework가 제안되었습니다. Sparse Convolution을 사용하여 backbone 수정 없이 CNN에 적용 가능한 Masked Image Modeling 방법 제안하였으며, CNN Encoder에서는 hierarchical 구조를 유지한 Multi-scale output이 Decoder에 입력되고, Decoder는 UNet 구조를 따르고 복원된 masking 영역으로 loss를 계산하며 학습이 이루어집니다. 본 세미나를 통해 Masked image modeling 방법론에 대해 전반적으로 알 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Masked Image Modeling 방법론을 다룬 Corrupted Image Modeling for Self-Supervised Visual Pre-Training 논문과 Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling 이라는 두 논문을 다루었습니다. 먼저 CIM 모델의 구조를 살펴보면 입력 이미지를 mask 토큰을 사용하는 대신 BEiT 모델의 output으로 corruption 시키는 generator 부분과 이렇게 corrupted image를 다시 원래대로 복원하도록 generation을 하거나 각 토큰이 대체된 토큰인지 아닌지를 구분하도록 하는 방식으로 학습하는 enhancer로 구성되어 있습니다. 이 때 generator와 enhancer는 동시에 학습됩니다. 두 번째 논문인 Spark 모델은 BERT 스타일의 pre-training 방법론인 masked image modeling이 그대로 CNN 구조에 적용되기 힘들다는 점을 지적합니다. Convolution 연산이 불규칙한 masked input image를 처리할 수 없다는 점을 해결하기 위해 point cloud 형태의 3D 이미지 처리에 주로 사용되는 spark convolution 연산을 사용합니다. 또한 Hierarchical Encoding과 Decoding을 사용하여 CNN의 구조에 맞는 masked image modeling을 시도합니다. 실험 결과 두 방법 모두 더 나은 성능을 보이는 것을 확인할 수 있었습니다. NLP 분야에서는 굉장히 많이 사용되는 masking 기법이 image 분야에 어떤 식으로 적용되는지와 효과적으로 적용하기 위해 어떤 연구들이 수행되고 있는지를 알 수 있었습니다. 발표에서 하나의 주제로 두 논문을 다루어 주셔서 해당 주제에 대해 깊게 고민해 볼 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나는 Masked Image Modeling을 주제로 진행되었습니다. Masked Image Modeling은 BERT의 Masked Language Modeling에서 아이디어를 얻어 이미지 데이터에 적용한 것으로 이미지 데이터를 활용한 down stream task 적용에 앞서서 진행되는 과업입니다. 이미지를 patch 단위로 구분한 뒤 masking 을 적용하는 것이 일반적이기에 ViT 구조의 모델을 주로 활용합니다. 그래서 masking 된 patch를 복원하므로써 실제 patch의 이미지와의 오차율을 통해 학습이 이루어집니다. 관련되어 두 방법론을 소개해주셨는데 첫 번째 방법론은 CIM(Corrupted Image Modeling)이었습니다. 이는 단순히 masked patch를 예측(복원)하는 것이 아닌 Masked Image를 이용해서 Corrupted Image를 생산한 후 다시 정상 이미지를 생성해내는 과업과 각 patch가 새로이 생성된 부분인지 아닌지를 판별하는 과업이 함께 진행됩니다. 두번째 소개해주신 Spark는 Sparse masKed modeling 의 약자로 BERT 와 비슷한 방식으로 진행되는 MIM의 일련의 구조에 CNN을 적용한 연구를 보여주었습니다. 이름에서 알 수 있듯이 Sparse convolution을 적용함으로써 Masked Image를 바로 적용하기에는 어려운 일반적인 CNN의 한계를 극복하였습니다. Sparse convolution의 알고리즘이 그리 어려운 것은 아니지만 MIM에 적합하면서 신선한 아이디어인 것 같습니다. 이처럼 서로 다른 도메인(NLP-이미지)의 아이디어를 cross 할 수 있는 영역을 잘 탐구한다면 좋은 연구주제를 찾을 수 있을 것 같습니다. 재미있는 내용 준비해주셔서 감사합니다.
이번 세미나에서는 “Masked Image Modeling”을 주제로 “Corrupted Image Modeling for Self-Supervised Visual Pre-Training”과 “Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling”이라는 두 가지 연구를 소개해주셨습니다. 두 방법론 모두 자연어 처리에서 BERT의 Pre-training Task로 사용되었던 MLM을 Computer Vision에 활용했습니다. 첫 번째 연구에서는 CIM이라는 방법론을 제안했습니다. CIM은 Masked Token을 BEiT Generator로 복원한 Corrupted Image를 Enhancer의 입력으로 사용해 Masking된 영역을 복원하는 구조를 가지고 있습니다. 두 번째 연구에서는 SPARK라는 방법론을 제안했습니다. 해당 연구는 Masked Image Modeling을 CNN에 그대로 적용할 경우, Distribution Shift가 발생한다는 문제를 지적했습니다. 따라서 연구진은 Sparse Convolution을 이용해 Backbone Model의 수정 없이 CNN에 적용 가능한 Masked Image Modeling 방법을 제안했습니다. 해당 방법론은 CNN Encoder의 계층적 구조를 유지한 Multi-Scale Feature Map을 Decoder(UNet)의 Input으로 사용하는 구조를 가지고 있습니다. 서로 다른 Domain에서 활발히 사용되는 방법론을 타 Domain에서 응용한 연구는 언제나 흥미로운 주제라 재미있게 들을 수 있었습니다. 좋은 발표 감사드립니다.
금일 세미나는 Image 분야의 Self-Supervised Learning에서 Makes Image Modeling을 이용하는 두가지 논문을 중심으로 이루어졌습니다. 이미지 분야의 MIM에서 주된 고려사항은 텍스트와 달리 locality가 강한 이미지 도메인의 특성으로 인해, 단순히 특정 패치를 마스킹하고, 복원하는 작업은 pixel level detail에 집중하게 된다는 문제점을 해결하는 것이었습니다. 이를 위해 CIM(Corrupted Image Modeling)은 마스킹된 이미지를 직접 복원하는 것이 아니라, 마스킹된 이미지를 기반으로 Corrupted된 이미지를 생성하고, 해당 이미지에서 원본 이미지를 복원하면서 Corrputed된 패치를 분류하는 태스크를 수행했습니다. 이는 텍스트 분야의 Electra와 유사하게, Generator로 사전학습된 모델을 이용하고, 실제 학습시키고자 하는 Discriminator를 다운스트림 태스크에 이용하는 흐름입니다. 이러한 흐름이 유효할 수 있는 이유는 pixel level detail에 집중하지 않도록, Generator가 VQ-VAE를 이용하여 토큰 단위의 복원을 실시하기 때문이라고 생각됩니다. 두번째 방법론이었던 Spark의 경우엔, 기존의 Convolution 연산은 마스킹된 영역의 정보를 무시하면서 연산이 이루어지기 때문에, MIM에 적절하지 않음을 지적하면서, Sparse Convolution을 도입하여, Masking된 영역이 연산 과정에서 무시되지 않도록 하고 있습니다. 이를 UNet 구조에 도입함으로써 마스킹되지 않은 정보들로 효과적으로 마스킹 영역을 복원하는 모습을 보이고 있습니다. BERT 모델이 발표되고, 이미지 분야에서 ViT 구조가 발견된 이후로, 이미지도 MLM과 유사한 pretext task가 가능할 것이라는 전제 하에 다양한 pretext task 및 구조가 연구되고 있는 것 같습니다. 언뜻 보기엔, 이미지와 텍스트 모두 트랜스포머 구조를 이용하므로, 다른 Modal임에도 유사한 구조 및 태스크를 공유할 수 있을 것이라 생각했지만, 최근의 Scalability 이슈나, 이번 세미나에서 다뤄진 MIM 학습의 어려움 등을 살펴볼 때, 결국 매우 상이한 연구가 진행되고 있음이 매우 흥미로운 것 같습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 Masked Image Modeling을 주제로 2개의 논문을 소개해 주셨습니다. 첫번째 논문인 CIM: Corrupted Image Modeling에서는 generator를 사용하여 마스킹된 patch를 복원하고자 하고 있으며, 복원된 이미지는 enhancer의 입력으로 사용되어 generative, discriminative task를 수행하고 있습니다. CIM의 generator로는 다양한 종류의 corrupted image를 생성하게 됩니다, 다음으로 enhancer에서는 generative, discriminative pretext task를 각각 수행하는 linear layer를 통해 학습하게 됩니다. 두번째 논문에서 제안하고 있는 Spark(Sparse Masked Modeling with hierarchy)에서는 Bert-style pre-training을 convnets에 backbone 변경 없이 사용한 연구를 다루고 있습니다. Encoder에는 일반적인 CNN이 사용될 수 있으며, Decoder에는 UNet 구조를 사용하고 있습니다. 전체적인 구조에서 살펴보면 CNN Encoder의 hierarchical한 구조를 유지한 multi-scale output이 decoder에 입력되게 됩니다. 마스킹된 position의 feature는 masked embedding으로 대체하며 feature scale마다 embedding을 구분하게 됩니다. 본 논문을 소개하기에 앞서 vision 분야에서 masked image modeling이 어떤 식으로 발전되어 왔는지 짚어주셔서 추후 발표 흐름을 이해하는데 많은 도움이 되었습니다. 세미나 시간에 언급되었던 것처럼 NLP 분야의 방법론을 vision 분야에 적용하여 좋은 결과를 얻는 경우가 상당수 존재하는데 이런 부분에 대해 좀더 고민해보면 좋을 것이라는 생각이 들었습니다. 좋은 발표 감사합니다!
이번 세미나는 Masked Image Modeling를 주제로 두 가지 논문에 대해서 다뤄주셨습니다. maksed image modeling이란 마스킹된 이미지를 재구축함으로써 이미지에 대한 representation을 더 잘 학습하고 이를 통해 downstream task를 더 잘 수행하는 것을 목표로 하고 있습니다. 첫번째 논문에서는 CIM이라는 방법론을 제안하고 있습니다. CIM은 우선 Small BEiT와 decoder로 구성되어 있는 generator를 통해 마스킹된 이미지를 corrupted image로 복원하고 ViT, CNN과 같은 backbone구조를 enhacer로 사용하는 구조를 택하였습니다. 두번째 논문인 Spark는 convolution 연산이 수행될 수록 masking 영역이 사라지는 한계점을 들고 sparse convolution을 적용하여 마스킹된 영역은 convolution 연산에 사용되지 않도록 하는 특징을 가지고 있습니다. masked image modeling에 대한 이전 연구들과 개선하기 위한 새로운 방식들에 대해 접할 수 있어 좋았으며, 특히 첫번째 연구에서 마스킹된 이미지를 바로 재구축하는 것이 아닌 corrupted image로 복원하고 enhance과정을 거치는 점이 인상 깊었습니다. 좋은 발표 감사합니다.
이번 세미나는 Masked Image Modeling(MIM)을 주제로 총 2개의 논문을 소개해주셨습니다. MIM은 자연어처리 분야의 대표적인 사전학습 과업인 Masked Language Modeling(MLM)을 이미지 도메인에 적용한 방식으로 마스킹과 복원이 토큰 단위로 진행되기에 ViT 구조가 주로 사용됩니다. 인코더 디코더 구조의 VAE를 바탕으로 재구축 오차를 최소화하도록 학습되며 downstream task에서는 인코더의 파라미터를 고정하거나 full fine-tuning이 수행됩니다. 소개해주신 첫번째 논문 Corrupted Image Modeling for Self-Supervised Visual Pre-Training은 마스킹된 영역을 generator로 복원하여 enhancer의 입력으로 활용하며, 이때 generator는 small BEiT 구조를 차용하여 dVAE의 visual 토큰을 타겟으로 하여 학습을 수행합니다. 또한, enhancer는 재구축 오차와 generator가 생성한 토큰을 구별하는 discriminative loss로 학습이 진행됩니다. 두번째 논문 Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling은 sparse convolution을 통해 백본 모델의 수정 없이도 CNN에 MIM을 적용하는 방식을 제안합니다. CNN 인코더의 계층적인 구조를 유지한 multi-scale output을 디코더에 입력하며, 디코더는 UNet을 차용하고 복원된 영역의 오차를 계산합니다. 자연어에서 출발한 self-supervised 방식이 비전에서는 어떻게 적용되는지 알 수 있어 유익했습니다. 2년동안 세미나 준비하시느라 고생 많으셨습니다. 항상 유익한 발표 진행해주셔서 감사합니다.
이번 세미나는 Mased Image Modeling을 주제로 "Corrupted Image Modeling for Self-Supervised Visual Pre-Training"와 "Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling" 두 논문을 소개해주셨습니다. Masked Image Modeling은 NLP 분야에서 pretext task로 사용하는 Masked Language Model을 이미지 도메인에 적용한 것이었습니다. 첫번째 논문에서 소개해주신 CIM:Corrupted Image Modeling은 generator를 사용하여 masking되어있는 patch를 복원하는 방법입니다. 해당 방법에서는 기존 NLP 연구에서 활용되는 것과 같이 원본 이미지 데이터를 image tokenizer라는 것으로 쪼개고, 이를 patch embedding이라고 합니다. patch embedding과 각 patch의 위치정보를 담은 position embedding을 함께 BEiT Encoder에 입력하는 구조였습니다. 두번째 논문에서는 Spark에 대한 내용이었습니다. Spark는 sparse convolution을 통해 마스킹 된 부분은 convolution 연산에 사용하지 않아, masking 정보를 잃지 않을 수 있도록 개선한 방식을 가집니다. 주로 NLP 분야에서 자주 이용되는 아이디어를 다른 도메인에 접목하여 문제점을 개선하고 발전하는 흐름을 알아볼 수 있어 흥미로운 시간이었던 것 같습니다. 발표 전반에 있어 느리지도, 빠르지도 않게 차분히 말씀해주셔서 듣는 입장에서 굉장히 편안하게 발표에 집중할 수 있었던 것 같습니다. 좋은 발표 준비해주셔서 감사드립니다.
이번 세미나에서는 NLP에서 많이 사용되었던 Masked Model 방법론이 Vision 분야에서 어떻게 쓰이고 있는지에 대한 논문을 소개 해주셨습니다. 다룬 논문은 총 두개로 Corrupted Image Modeling for Self-Supervised Visual Pre-Training과 Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling입니다. 전자의 논문의 경우 기존의 Patch 단위로 마스킹 해서 이를 복원하던 MIM 과는 달리 Small BEiT와 Decoder를 이용해 Corrupted Image를 만들게 됩니다. 그 후 이를 원본 이미지로 복원하는 과정을 통해 이미지의 Feature를 학습하게 됩니다. 후자의 경우 SPARK라는 이름의 방법론을 제안하고 있는데, MIM 방법이 CNN에 그대로 적용하기 어렵다는 점을 지적하고 있습니다. 그러면서 Bert-style의 사전 학습 방법, 그러니까 MIM 방식을 Convnet에 backbone 변경 없이 가능한 방법론을 제안하고 있습니다. CNN의 Encoder의 hierarchical 구조를 유지한 Multi-scale output이 UNet 형태의 Decoder로 입력되고 복원된 masking 영역으로 loss를 계산하게 됩니다.
최근 NLP에서 사용되는 Self-supervised Learning 방법론들이 Vision 쪽으로 넘어오며 적용 되는 것이 보이게 되는데, Transformer와 이를 활용한 Large Model로 NLP가 발전해 왔듯이, Vision 역시 ViT와 함께 유사한 방향으로 나가는 것은 아닌가 생각이 들었으며, 발표자분의 좋은 발표 덕분에 다시 생각해보는 기회였습니다. 감사합니다.
이번 세미나에서는 Masked Image Modeling을 주제로 Corrupted Image Modeling for Self-Supervised Visual Pre-Training, Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling의 두 논문을 소개해 주셨습니다. 각 논문에서는 CIM과 Spark를 제안하였으며, 우선 CIM은 일부를 masking한 이미지를 Corrupted Image라 정의하고 해당 이미지를 Enhancer의 입력으로 사용합니다. 동시에 Generator에서는 dVAE의 visual token을 target으로 하여, Enhancer는 reconstruction loss, Generator는 생성된 토큰을 구분하는 discriminative loss를 통해 학습을 수행합니다. 반면 Spark는 patch 단위로 masking을 수행 후 convolution하면 masking 영역이 가려지게 되어 distribution shift가 발생함을 지적합니다. 이를 위해 논문에서는 masking 영역을 피해 convolution을 계산하는 sparse convolution을 제안합니다. 두 방법론 모두 일반적으로 NLP에서 unlabeled data를 학습에 사용하기 위한 MLM기법을 이미지에 활용했다는 점이 인상이 깊으며, 특히 spark에서 이미지 convolution 연산 때문에 text와 달라지는 문제를 직관적으로 해결한 점이 인상 깊습니다. 좋은 발표 감사합니다.
이번 세미나는 Masked Image Modeling과 관련된 2편의 논문으로 진행되었습니다. Masked Image Modeling은 NLP 분야에서 사전학습에 자주 사용되는 MLM task를 CV 분야에 적용하는 것으로 가장 대표적인 구조로는 이미지 패치 단위로 마스킹하는 ViT가 있습니다. 두 논문 중 첫 번째로 소개해주신 Corrupted Image Modeling for Self-Supervised Visual Pre-Training 논문을 인상 깊게 들었는데, 해당 논문은 NLP 분야에서 유명한 Language Model인 ELECTRA의 사전 학습 방식과 유사한 방식의 사전 학습 방식을 제안했습니다. ELECTRA는 일부가 마스킹된 sequence를 입력으로 받아 Generator가 토큰을 생성하고, Discriminator가 해당 토큰이 원래 오리지널 토큰인지 교체된 토큰인지를 구분하는 방식으로 학습을 진행하는 언어 모델입니다. CIM도 이와 마찬가지로 마스킹된 패치에 대해 BEiT의 softmax output을 사용한 sample token과 마스킹되지 않은 패치에 대한 visual token이 디코더의 입력으로 들어가 corrupted image를 생성하고, Corrputed Image를 입력으로 받은 Enhancer가 Generative pretext task와 Discriminative pretext task를 수행하는 방식을 통해 학습이 진행됩니다. MLM 사전 학습 방식 뿐만 아니라 다른 언어 모델에서 제안한 사전 학습 방식도 비전 분야에 적용했을 때 좋은 성능을 낼 수 있다는 게 신기했고, 교수님께서 세미나 때 언급하신 것처럼 아직 비전에 적용해보지 않은 NLP 분야의 사전 학습 방식이 있다면 이를 활용한 연구를 진행해봐도 좋을 것 같다는 생각이 들었습니다. 이번 세미나가 마지막 세미나로 알고 있는데 항상 좋은 발표 감사했습니다!
금일 세미나는 최근 Vision에서 SSL로 가장 많은 관심을 가지고 있는 "Masked Image Modeling (MIM)"이라는 주제로 두 가지 논문에 대하여 소개해주셨습니다. 첫 번째 논문인 "Corrupted Image Modeling for Self-Supervised Visual Pre-Training"에서 제안하는 Corrupted Image Modeling (CIM)은 기존 MIM과 달리 masked image에 대하여 생성 모델을 통해 mask를 생성한 후 원본과 약간(?)은 다른 corrupted image를 통해 원본 이미지로 복원하는 과정으로 학습이 진행됩니다. 이때 생성이라는 과정이 augmentation과 같이 이미지의 다양성을 증가시키기 때문에 보다 풍푸한 정보로 학습할 수 있다는 장점이 인상깊었습니다. 두 번째로 소개해주신 "Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling" 에서는 Spark라는 hierarchical한 구조의 MIM을 제안합니다. 기존 방법과 달리 CNN을 활용하여 중간 마다 서로 다른 크기의 feature map에 mask를 적용하고 decoder로는 U-Net 구조 기반으로 MIM을 학습하는 과정을 제안합니다. 처음 MIM이 ViT를 기준으로 사용이 되었다면 해당 방법은 CNN 구조로 바꾸어 MIM을 여러 레이어에 적용했다는 점에서 인상 깊었습니다. 세미나 발표 자로에서의 친절한 예시와 질문에 대한 답변 덕분에 발표 집중하며 잘 들을 수 있었습니다. 좋은 발표 감사합니다.