[Paper Review] Vision Transformer with Deformable Attention

Paper Review
작성자
Yonggi Jeong
작성일
2022-07-07 22:02
조회
3806
1. 논문 제목 : Vision Transformer with Deformable Attention

2. 논문 Overview :
  • Deformable Attention Module
    • Offset network 에서 예측한 offset 을 통해 key 와 value 를 좀 더 유의미한 영역으로 sampling 함
    • 입력 patch 수보다 적은(sparse attention) reference point 에 대해 offset 을 계산하는 것으로 self-attention의 연산량을 줄임
  • Offset Network
    • Depthwise Convolution, GELU, 1x1 Conv 로 구성된 sub-network
    • 입력된 query feature 에 대해 최대 s의 크기를 가질 수 있는 offset value 를 예측하도록 함
  • Result
    • ImageNet, COCO, ADE20K dataset 에 대해 Classification, Object Detection, Semantic Segmentation, Instance Segmentation 에서 성능을 검증하였고, 각 task의 SOTA 모델에서 backbone 으로 주로 사용하는 Swin Transformer 의 성능을 뛰어넘음
3. 발표자료 및 영상
  • 발표자료 : 하단 첨부
  • 발표영상 :
4. Reference
  • Vision Transformer with Deformable Attention Link
전체 14

  • 2022-07-10 20:25

    금일 세미나에서는 "Vision Transformer with Deformable Attention" 논문에 대해 소개해주셨습니다. 해당 논문은 deformable convolution의 방법을 반영한 self-attention을 제안한 논문입니다. Deformable convolution은 기존 convolution과 달리 정해진 receptive field가 아닌 offset을 반영하여 데이터에 맞게 receptive field가 유연하게 적용되도록 사용되는 방법입니다. 해당 방법을 통해 기존 self-attention에서 모든 patch 간 attention을 수행하는 것이 아닌 value와 key를 주어진 reference point에서 데이터에 맞게 학습된 offset에 해당하는 부분만 적용하여 기존보다 적은 연산량을 갖는 것과 동시에 주요한 영역에 대해서 attention이 적용되도록 학습하는 모습을 볼 수 있었습니다. Deformable Convolution을 처음 알게 되었을 때 신선한 개념이다 라고 생각되었는데, 이를 self-attention에 잘 반영한 논문이라고 생각되었습니다. 오늘도 좋은 발표 감사드립니다.


  • 2022-07-13 16:34

    금일 소개된 논문은 Vision Transformer with Deformable Attention입니다. 본 논문에서는 deformable convolution networks의 offset을 self-attention에 응용한 deformable attention module을 제안합니다. 이를 통해 reference point를 참고하여 key와 value에 대한 서브 패치 포인트를 offset을 통해 조정합니다. 모델 아키텍쳐는 Swin Transformer와 유사하며, deformable로 인한 추가 연산을 줄이기 위해 모델 크기를 일부 변경하여 사용하였습니다. Dynamic한 커널에 대해 평소 궁금했고 실질적인 역할이나 연산 측면에서 매우 유용할 것이라 생각했는데, 이번 세미나를 통해 deformable convolution의 개념과 이를 attention에 응용한 연구를 접할 수 있어 흥미로웠습니다. 시계열 데이터에도 이러한 커널을 적용하면 다양한 pattern과 trend를 가진 데이터에 보다 적합하도록 학습이 잘 될 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2022-07-13 22:45

    이번 세미나에서는 CVPR 2022 베스트 논문 중 하나인 Vision Transformer with Deformable Attention 이라는 제목의 논문이 소개되었습니다. 본 방법론의 핵심이 되기도 하는 Deformable Convolution Networks 를 처음 접하였는데 고정된 kernel 이 아니라 object에 맞는 receptive field를 학습하는 점이 흥미로웠습니다. Deformable Attention은 이러한 개념을 응용한 것으로 reference points들에 대해서 offset이 patch 수 보다는 적게 설정됩니다. 이미지의 query feature가 offset network로 입력되고 계산된 offset으로 key,value를 얻어 query feature와 함께 multi-head attention이 진행됩니다. 기존 Swin Transformer 보다 약간의 연산량 증가 대비 유의미한 성능 향상이 있음을 확인할 수 있습니다. reference offset 또한 자동으로 설정할 수 있도록 하는 방법론이 머지않아 제시될 것이라 생각이 됩니다. 흥미로운 발표 감사합니다.


  • 2022-07-14 00:15

    이번 세미나는 deformable convolution을 vision transformer의 self attention에 적용한 논문 "Vision Transformer with Deformable Attention"(CVPR 2022)를 주제로 진행되었습니다. 발표자 분께서 세미나 초반 ViT 계열 연구들을 소개하시면서 모델들의 구조적 차이에 대해 언급해주신 덕에 이해에 도움이 되었습니다. 본 논문은 deformable의 offset 개념을 적용한 Deformable attention module을 제안합니다. offset은 patch 수보다 적은 reference points에 대해 계산되어 key와 value를 주요한 영역으로 옮기는 역할을 수행하고 동시에 연산량을 줄인다는 장점을 가집니다. 또한, offset network를 도입하여 입력으로 들어온 query feature를 통해 reference point의 offset value를 예측하였습니다. 이 네트워크는 depthwise convolution, gelu, 1x1 conv로 구성되어 있으며 각 point는 특정 영역 안에서 shift될 수 있습니다. 본 논문은 기존 연구인 PVT, Swin Transformer에 검증된 피라미드 형태의 구조를 사용하며 deformable로 인한 연산량을 줄이기 위해 stage 3,4에서만 제안하는 deformable attention을 사용합니다. 이를 통해 분류를 비롯한 object detection, segmentation 등 다양한 task에서 성능 향상을 이루어냈습니다. 항상 발표자분의 세미나를 들으며 비전 관련 연구를 이해하는데 큰 도움을 받고 있습니다. 이번에도 유익한 세미나 진행해주셔서 감사합니다.


  • 2022-07-14 12:59

    본 세미나에서는 Vision Transformer with Deformable Attention 이라는 주제의 논문을 리뷰하였습니다. vision transformer의 발전 과정을 background에서 자세히 설명해 주셔서 흐름을 따라가는 것이 수월했습니다. 본 논문에서는 deformable의 offset 개념을 VIT의 self-attention에 적용한 Deformable Attention Module을 제안하였습니다. 고정된 크기의 kernel이 아닌 object에 유연하게 대응할 수 있는 deformable의 아이디어가 참신하게 다가왔습니다. 이러한 Deformable Attention Transformer는 ImageNet, COCO, ADE20K dataset에 대하여 classification, Object Detection, semantic segmentation, instacne segmentation에서 우수한 성능을 보여줬습니다. Deformable이 추구하고자 하는 목적에 잘 부합되는 결과였습니다. 발표자님의 세미나 덕분에 VIT에 대한 내용을 꾸준히 catch-up 할 수 있었습니다. 좋은 발표 감사합니다.


  • 2022-07-14 13:04

    이번 세미나에서는 Vision Transformer with Deformable Attention 논문을 소개해 주셨습니다. Self-attention 연산량이 매우 컸던 ViT 구조를 개선하기 위해 학습되는 Data-dependent kernel을 적용할 것을 제안한 논문입니다. Deformable convolution은 기존 Convolution이 고정된 kernel을 사용하는 것과는 다르게 Reference point에 대한 offset 연산을 통해 현재 데이터에 알맞은 위치에 집중할 수 있도록 합니다. 본 논문에서는 이 Deformable convolution의 offset을 self-attention에 적용하여 Reference point의 Query Feature에 대한 Key, Value를 핵심적인 위치로 이동시킵니다. 결과 입력 patch 보다 적은 부분만을 연산하는 sparse attention의 효과를 얻습니다. 기존 Swin Transformer 보다는 약간의 연산량 증가가 있지만 성능이 향상되는 것으로 확인된다고 합니다. Self-Attention의 연산량을 줄이기 위한 다양한 아이디어가 나오고 있는데, 본 논문에서 Reference point와 offset을 Query, Key, Value에 적용한 것이 매우 인상적이었습니다. 발표자께서 기존의 다양한 ViT계열 모델들과 발전 과정을 설명해 주셔서 Vision분야의 연구 동향을 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2022-07-14 14:13

    이번 세미나는 ‘Vision Transformer with Deformable Attention’를 주제로 진행되었습니다. 본 논문에서는 고정된 kernel이 아닌 학습되는 offset을 사용하는 data-dependent kernel을 제안한 deformable convolution networks에서 영감을 받아 offset 개념을 ViT의 self-attention에 적용한 deformable attention module을 제안합니다. 해당 모듈을 통해 모든 patch간의 attention을 구하는 것이 아닌 reference points에 대해서 offset에 해당하는 부분만을 사용하여 attention이 적용됩니다. Experiments에서 attention map을 비교하는 visualization을 제시하고 있는데 굉장히 흥미롭게 다가왔습니다. time-series에서도 해당 방법론을 차용해서 사용할 수 있는 점이 있을지 고민해보면 좋을 것 같습니다. 좋은 발표 감사합니다.


  • 2022-07-14 16:03

    이번 세미나에서는 Vision Transformer with Deformable Attention 제목의 논문에 대해 살펴보았습니다. 본 논문에서는 기존에 해오던대로 임의로 지정한 영역만 고려하는 것이 아니라 deformable convolution이 그러했던 것처럼 이미지를 입력받았을 때 분류 오차를 줄일 수 있도록 모델이 스스로 연산할 영역을 찾아 해당 영역에 attention 연산을 수행합니다. 모델 구조는 연산량을 줄이기 위해 swin transformer를 차용했으며 연산량을 고려하여 stage 3, 4에서만 deformable attention을 사용하고 있습니다. Defeomable convolution을 ViT에 잘 적용한 연구로 성능까지 기존에 비해 좋아져서 다양한 downstream task에서 실제로 사용해볼법한 모델이라는 생각이 들었습니다.


  • 2022-07-16 16:28

    이번 세미나에서는 CVPR 2022 33 best paper finalists에 선정되기도 한 Vision Transformer with Deformable Attention 논문을 다루어 주셨습니다. 해당 논문에서는 Deformable Attention Module을 제안했는데 offset network를 이용하여 query agnostic하게 patch 수보다 적은 reference points에 대해 계산을 하게 되는 형태입니다. 논문에서 제안하는 모델인 DAT는 기본적으로 Vanilla MHSA에 deformable attention을 추가한 transformer 구조이며, pyramid 형태의 구조에서 stage 3,4에만 deformable attention을 사용하였습니다. 위와 같은 방법론을 이용하여 연산량을 줄였다는 점에서 의의가 있는 것 같습니다. 초반 background 부분에서 다양한 ViT 모델들을 다루어 주셔서 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다!


  • 2022-07-16 20:27

    이번 세미나는 "Vision Transformer with Deformable Attention" 이었습니다. 해당 논문은 ViT 구조에 Deformable Attention을 추가한 구조를 띄고 있습니다. Deformable Attention이란 Convolution Net 기반의 모델에서 사용되는 Deformable Conv 구조를 Attention을 통해 유사하게 작동하도록 합니다. Deformable Conv는 기존의 Conv 구조가 고정된 kernel을 가지고 있기 때문에 각 픽셀마다 필요한 주변 정보를 제대로 가져오지 못하는 점을 지적하면서 각 픽셀마다 각각 다른 픽셀에서 정보를 가져오는 data-dependent kernel을 사용합니다. 이를 통해 기존의 ViT 구조와 달리 object 별로 필요한 정보에 효과적으로 attention을 가할 수 있게 됩니다. Deformable Convolution이라는 개념을 처음 접했는데, 직관적인 개념이라 상당히 흥미로웠습니다. 또한, 이를 Attention 구조에 도입하기 위해 offset의 개념을 활용하는 것이 자연어 처리 분야에서 sparse attention을 사용하는 점과 어느정도 비슷한 부분이 있어 보였습니다. 자연어에도 바로 활용될 수 있을 것 같습니다. 좋은 발표 감사합니다.


  • 2022-07-18 16:44

    금일 세미나는 "Vision Transformer with Deformable Attention"라는 주제로 진행되었습니다. 본 발표에서는 Deformable의 offset 개념을 ViT의 self-attention에 적용한 Deformable Attention Module이 소개되었습니다. Deformable CNN에서 활용된 deformable의 개념은 학습 가능한 data-dependent kernel을 활용하여 convolution 연산을 수행하는 방식이었습니다. Deformable Attention Module에서는 이러한 방식을 ViT의 self-attention에 적용하였습니다. 해당 모듈에서 offset value는 offset network를 통해 patch의 개수보다 적은 reference points에 대해 계산되며, key와 value를 주요한 영역으로 옮기는 역할을 합니다. 본 논문에서 제안한 모델을 간단한 방법을 통해 Swin Transformer의 성능을 능가하였습니다. Time-series analysis 분야에서 Transformer가 활발히 사용되고 있는데 본 발표를 들으면서 deformable attention을 해당 분야에도 적용하면 좋은 성능을 도출할 수 있지 않을까하는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2022-07-21 23:47

    금일 세미나는 CVPR 2022년에 Best paper로 선정된 Vision Transformer with Deformable Attention 논문으로 진행되었습니다. VisionTransformer는 Transformer 구조를 이미지에 적용한 연구로 많은 vision task에 활용되고 있지만, self-attention 구조로 인해 많은 연산량이 필요하고 수렴 속도가 빠르지 않은 것 등의 단점이 존재합니다. 그래서 ViT의 연산 효율성을 높이기 위해 많은 후속 연구가 진행되었는데 해당 논문에서 제시한 Deformable Attention Transformer도 Deformable Attention Module을 도입해서 성능과 연산 효율성을 높인 연구입니다. Deformable Attention Module이란 offset network에서 예측한 offset을 통해 key와 value를 좀 더 유의미한 영역으로 샘플링하며, 입력 patch 수보다 적은 reference point에 대해 offset 계산을 수행하여 deformable 구조의 연산량을 줄인 구조로, 연산 효율성을 높였을 뿐만 아니라 여러 CV task에서 SwinTransformer의 성능을 뛰어넘었다고 합니다. 비전에 대해 잘 모르지만 초반에 ViT 이후의 흐름을 짚어주셔서 한결 이해가 수월했던 것 같습니다. 좋은 발표 감사합니다!


  • 2022-07-25 00:08

    이번 세미나는 Vision Transformer with Deformable Attention를 주제로 진행되었습니다. 해당 논문은 deformable convolution networks에서 제안된 offset을 사용하여 key와 value를 유의미한 영역으로 이동시키게됩니다. 이때 유의미한 offset을 찾기위해 sub network를 정의하며 offset network는 query를 받아 offset value를 예측하도록 학습됩니다. reference point들은 offset 예측값을 통해 deformed point로 이동하게 되며, 모든 patch마다 offset을 계산하는것이 아니라 patch수보다 적은 reference point들에 대해서 계산이 이루어지게됩니다. 별도의 network를 사용하므로 연산량 증가가 이루어지지만, swin transformer를 사용하고 deformable attention을 3,4 stage에만 추가하는 등 연산량 증가를 최소화 시키기 위해 다양한 실험을 진행다는 특징이 있습니다. offset을 학습시켜 key와 value를 유의미한 영역으로 이동시키는 아이디어와 이를 ViT에 적용한 점이 인상깊었습니다. 좋은 발표 감사합니다.


  • 2022-07-25 18:55

    이번 세미나는 Vision Transformer with Deformable Attention 라는 논문을 주제로 진행되었습니다. 우선 논문에서의 용어인 Deformable 이 무엇을 뜻하는지 궁금했었는데, 장표에서 매우 친절하게 설명해 주었습니다. 고정된 kernel 이 아닌 학습되는 data-dependent kernl 을 제안하고, 이는 end-to-end 로 학습되는 offset 은 추가적인 supervision 을 필요로 하지 않습니다. offset network 에서 예측한 offset 을 통해 더 유의미한 sampling 을 하게되고, offset network 의 학습이 새롭게 받아들여져 흥미로웠습니다. 내용이 많이 어려웠었는데, 이전 내용들을 상세하게 다루어 어느정도 따라 갈 수 있었습니다.


전체 501
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10294
관리자 2020.03.12 0 10294
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8909
관리자 2020.03.12 0 8909
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10019
관리자 2020.03.12 0 10019
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (1)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 29
Sunghun Lim 2025.04.24 0 29
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 50
Suyeon Shin 2025.04.21 0 50
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 114
Woongchan Nam 2025.04.16 0 114
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 208
Kiyoon Jeong 2025.04.16 0 208
494
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 285
Hyeongwon Kang 2025.04.09 0 285
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 281
Jaehyuk Heo 2025.04.02 0 281
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 273
Jaehee Kim 2025.04.02 0 273
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 252
Jungho Lee 2025.04.02 0 252
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 245
Hankyeol Kim 2025.03.25 0 245
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 354
Sieon Park 2025.03.19 0 354

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호