[Paper Review] FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

Paper Review
작성자
Kiyoon Jeong
작성일
2024-01-10 22:19
조회
1883
1. 논문 제목
  • FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization (ICCV 2023)
  • 링크: 바로가기

2. Overview

논문요약
  • 최근 연구들에서 vision transformer의 구조 일부를 convolution로 변경한 hybrid vision transformer를 제안했고, 이러한 모델들은 성능과 효율성면에서 많은 개선을 만들어냈습니다.
  • 본 연구에서는 edge device에서의 latency에 가장 큰 focus를 두고, SOTA latency-accuracy trade-off를 가진 hybrid vision transformer인 FastViT를 제안했습니다.
  • FastViT의 SOTA achievement가 가능했던 원인은 다음 3가지와 같습니다.
  1. Reparameterizing skip connection edge device에서 skip-connection은 memory access cost를 유발하기 때문에 latency를 크게 증가시킵니다.
    RepVGG 논문에서 제안된 reparameterizing skip connection을 hybrid vision transformer에 적용시켜서 latency를 크게 감소시켰습니다.
    * Reparameterization skip connection은 convolution network에서 사용가능한 방법으로 skip connection을 convolution 연산 안에 포함시키는 방법으로
    추가적인 memory space와 memory access cost가 필요하지 않아 latency를 낮추는데 도움이 됩니다. 본 논문에서 hybrid vision transformer에 처음 적용했습니다.
  2. Train-time overparameterization 한 layer에 병렬적으로 다른 사이즈의 kernel을 갖는 convolution연산을 하여 그 결과를 summation하는
    train-time overparameterization을 이용해 accuracy를 개선했습니다. 학습시간이 다소 늘어나지만 그 정도가 미미했으며, inference시엔
    이 역시 reparameterization하여 추론시간에 영향을 주지 않습니다.
  3. Large Kernel Convolutionhybrid vision transformer의 receptive field는 self-attention에 비하여 상대적으로 local한 특성을 갖습니다. 학습 초반 단계에서 computational cost가
    큰 self-attention을 이용하지 않으면서 receptive field를 키우기 위하여 depthwise large kernel convolution을 이용한다. 이와 같은 방법으로 기존
    hybrid vision transformer가 상대적으로 작은 receptive field를 갖는다는 단점을 보완했습니다.
이러한 방법론들을 도입하면서 본 논문에서 제안하는 FastViT는 latency-accuracy 도메인에서 기존의 다른 방법론보다 성능과 latency 모두 우월함을 보였습니다.

3. 발표자료 및 발표영상

[1] 발표자료: 하단 첨부
[2] 발표영상: ">바로가기
전체 14

  • 2024-01-15 22:52

    Apple이 발표한 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization을 주제로 정기윤 석사과정이 세미나를 준비해주셨습니다. FastViT는 RepMixer를 제안하여 latency를 효과적으로 감소하였습니다. 이는 구체적으로 reparameterication을 통해 skip connection 연산을 제거하여 memory 효율을 높이는 방법을 사용했습니다. 또한 train-time overparametrization와 large kernel convolutions을 활용하여 accuracy를 높이면서 latency에는 영향을 주지 않았으며, 유사 모델들 대비 매우 빠른 속도를 보였습니다. Apple이 edge-device에서 동작하는 모델을 만들기 위해 어떤 연구를 해오는지 살펴볼 수 있는 기회였습니다. 감사합니다.


  • 2024-01-19 10:47

    이번 세미나는 ViT의 latency를 감소하기 위해 Apple이 제안한 FastViT 논문을 중심으로 진행되었습니다. 해당 논문은 빈번한 Skip-connection으로 인한 이미지 모델들의 높은 latency 문제를 지적합니다. 이 문제를 해결하기 위해 Hybrid Vision Transformer에 Reparameterization을 적용하여 성능은 다소 하락하지만, latency가 매우 개선시킬 수 있는 모델을 제안합니다. 지금까지는 모델의 성능을 개선하기 위해 다양한 kernel size로 convolution을 수행하는 overparameterization을 적용해왔는데, 논문은 이것이 latency를 크게 증가시켰다 주장합니다. Reparameterization은 inference 단계에서 다양한 kernel size로 convolution을 여러 번 수행하지 않고, 각 layer의 convolution을 동일한 사이즈로 맞추어 한 번에 연산을 수행하는 방법론입니다. 학습 단계에서 획득한 정보를 축약하는 것이기 때문에 성능이 다소 하락하지만, inference latency에서 매우 큰 개선이 있었습니다. Train-timeoverparameterization을 적용함으로써 학습시간이 다소 증가했는데, 결국 apple 같은 edge device 상의 inference에 관심이 있는 기업 입장에선 이는 크게 문제가 되지 않을까 싶습니다. 실제 apple이 당도한 문제를 해결하기 위해 논문 자체가 매우 실용적인 접근을 하는 것 같아서 매우 신선했습니다. 좋은 발표 감사합니다.


  • 2024-01-19 14:23

    금일 세미나는 "FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization"을 중심으로 진행되었습니다. 해당 논문은 온디바이스 상황에서 Vision Transformer 구조의 모델을 이용하기 위해서 경량화된 모델 구조 및 학습 방법론을 제안하고 있습니다. 특히 기존 Transformer 구조에서 Attention 레이어가 메모리 오버헤드가 심하다는 점을 지적하는 이전 연구를 인용하면서 해당 레이어를 Pooling으로 단순히 대체하고 있습니다. 또한, Convolution 레이어 역시 파라미터 수와 연산속도 개선을 위해 Overparameterization 및 Large Kernel Convoultion으로 대체하고 있습니다. Transformer 모델 구조에서 이미지 도메인에 적합하도록 Latency를 감소하면서 성능을 유지하고자 다양한 구조 변경을 시도한 점이 매우 눈에 띄는 논문이었지만, 결국 Transformer 구조의 핵심인 Self Attention - 비선형 레이어의 연속된 결합이 사라지고 Convolution - Pooling의 기존 ConvNet 기반의 모델 구조를 제안하게 되는 결론이었습니다. 온디바이스라는 특수한 환경에서는 결국 기존의 다양한 연구들이 그대로 적용될 수 없고, 사용환경 특성에 맞도록 많은 요소가 수정될 필요성을 느낄 수 있는 세미나였습니다. 좋은 발표 감사합니다.


  • 2024-01-20 19:41

    이번 세미나에서는 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization이라는 논문을 다루었습니다. 최근 vision transformer 모델들이 다양한 task에서 높은 성능을 달성하고 있지만 이러한 모델들은 transformer의 attention 계산으로 인해 computational cost가 높아 실제로 활용하기에는 한계점이 존재합니다. 이러한 상황을 해결하고자 vision transformer의 연산을 convolution으로 변화시킨 FastViT를 제안하였으며 해당 모델은 파라미터 수와 연산량이 매우 적으면서도 기존 모델과 비슷한 성능을 보입니다. FastViT는 Depthwise Seperable Convolution, Train-time Overparameterization, RepMixer, Large Kernel Convolution, Reparameterization 등의 다양한 기법을 활용하여 구성되고 학습됩니다. 실험에서도 본 논문이 주장하는 것처럼 기존 방법론 대비 적은 파라미터수와 연산 속도에서 강점이 있다는 것을 증명하였습니다. AI가 발전하면서 실제 생활에서 활용되기 시작한 시점이라고 생각하는데, 이러한 상황에서 연산량이나 크기를 줄이는 연구들은 매우 가치가 있다는 생각이 들었고 이러한 흐름을 파악할 수 있는 발표 내용이었습니다. 좋은 발표 감사합니다.


  • 2024-01-22 11:05

    이번 세미나에서는 보다 빠른 latency에 집중하는 FastViT : A Fast Hybrid Vision Transformer using Structural Reparameterization에 대해 다뤄주셨습니다. 기존의 ViT를 기반으로 Inference에서 높은 latency를 유발하는 구성 요소를 찾고 이를 해결하는 방식으로 방법론을 제안하고 있습니다. 그 중 Skip-connection을 convolution으로 대체한 부분으로, memory space와 memory access cost가 필요하지 않아 latency를 낮추는데 도움이 된다는 것이 인상적이었습니다. 실험에서는 다양한 실험을 통해 해당 제안 방법론이 효과적이었다는 것을 보여주고 있는데, 다만 아쉬운건 latency에 집중하고 있기 때문에 latency 위주의 실험 결과를 보여주고 있는데 latency와 성능 간의 trade-off는 보기 어려웠던 것 같아 아쉽다는 생각이 들었습니다. 좋은 발표 감사합니다!


  • 2024-01-22 14:57

    금일 세미나는 Apple에서 발표한 FastViT : A Fast Hybrid Vision Transformer using Structural Reparameterization이라는 논문을 다뤄주셨습니다. Edge device 환경이라는 상황을 타겟으로 memory, latency와 같은 점에서 장점을 가지고 있는 해당 방법론에 대해 자세히 알 수 있었던 시간이었습니다. 제안된 방법론은 Latency의 주된 원인을 Memory에 빈번하게 접근해야하는 Skip-connection을 지적하면서 기존 Inference 과정에서만 Skip-connection을 생략하였던 Reparameterization을 Hybrid Vision Transformer에 적용하고 있습니다. FastViT는 크게 Patch Embedding에 관여하는 부분과 Token Mixing에 관여하는 부분으로 나뉘어집니다. 1) Patch Embedding 부분에서는 많은 양의 차원축소를 진행하기 위해 Depthwise Separable Convolution을 진행함과 동시에 Capacity 감소를 보상해주기위해 Overparameterization을 진행하고 있으며 2) Token Mixing 부분에서는 RepMixer와 Self-Attention을 진행하되 RepMixer의 local한 Receptive field를 보완하기 위해 초반에 Large Kernel Convolution (7x7) 을 추가해주고 있습니다. 실험결과를 보면 Latency 측면에서 전반적인 향상을 보여주고 있으며 Image classification으로 성능 측면에서 또한 기존 경량화 모델들과 비교하였을 때 SOTA 성능을 기록한 것을 알 수 있었습니다. 성능을 유지하면서도 latency를 크게 줄인 FastViT를 보면서 온디바이스에 적용하는데 있어 문제점들을 하나씩 해결해나가는 느낌을 받았고, Image classification 뿐만 아니라 온디바이스 내에서의 다양한 task에 대해서도 성능을 유지하는 연구 또한 기대가 되었던 것 같습니다. 좋은 발표 감사합니다!


  • 2024-01-22 15:35

    이번 세미나에서는 “FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization”이라는 연구에 대해 소개해 주셨습니다. 해당 연구는 모델 경량화나 Edge-device에서 딥러닝 모델을 사용하기 위한 방법론들에 대해 활발히 연구하는 Apple에서 발표했습니다. 이번에는 Vision 분야에서 중요한 Backbone인 ViT가 비록 다양한 Task들에서 높은 성능을 보이고 있으나 Computational Cost가 크고 실제 업무 환경이나 개인 유저가 활용하기에는 어려움이 있음을 지적했습니다. 연구진들은 Model Forwarding 과정에서 Skip-Connection이 높은 Memory Access Cost를 유발해 Latency를 늘리는 주범이라고 주장했습니다. 이에 따라 Inference 단계에서 Skip-Connection 및 여러 Convolution 연산들을 하나의 Convolution으로 대체하는 방법을 이용했습니다. 연구실 내 세미나에서 흔히 소개되던 류의 논문이 아니라 처음에는 이번 세미나는 이해하기 어려울 것 같다 생각했으나 발표자 분의 자세한 설명 덕분에 이해에 많은 도움을 얻을 수 있었습니다. 첫 발표임에도 불구하고 상세한 설명을 담은 좋은 발표 감사드립니다.


  • 2024-01-23 16:20

    금일 세미나는 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 논문을 바탕으로 진행되었습니다. 현재 경량화에 대하여 다양한 연구를 진행하고 있는 Apple에서 나온 논문으로, 해당 논문 역시 경량화에 관한 내용을 담고 있었습니다. 해당 연구에서 제시하는 FastViT는 실제 edge device에서의 latency를 최대한 줄이는 것을 목적으로, 파라미터 수나 연산량만큼이나 latency를 증가시키는 memory access cost를 발생시키는 skip-connection을 개선하고자 하고 있습니다. 해당 연구에서는 먼저 PoolFormer 구조를 차용하는데, 이는 기존 ViT에서 사용하는 Token mixer(self-attention)을 Pooling으로 대체함으로써 Metaformer 자체의 역할을 극대화 시키면서, 작은 모델 사이즈로 경쟁력 있는 성능을 보여준 모델입니다. 이후, Latency 감소 목적으로는 Depthwise Seperable Convolution, RepMixer 등을 이용하고, Latency 감소를 통하여 손상된 Capacity 및 Receptive field회복 목적으로는 Overparameterization 및 Large Kernel Convolution 등을 이용하는 모습을 보이고 있었습니다. 실용적인 모델 경량화를 위하여 사용된 다양한 방법론이 흥미롭게 다가왔으며, 발표자분이 하나하나 상세하게 Figure로 표현해 주셨기에 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2024-01-24 20:08

    금일 세미나에서는 Apple 사에서 내놓은 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 논문을 주제로 진행되었습니다. 해당 논문에서는 Edge-device(iphone 12와 같은 모바일 디바이스)에서 딥러닝 모델 특히 Vision Transformer를 효율적으로 운용하기 위한 모델을 제안하였습니다. 모델 경량화라고 하면 단순히 파라미터 수를 줄이거나, 양자화를 하는 접근을 생각할 수 있는데, 이번 연구에서는 Latency 측면에서 중요한 Memory access cost 를 줄이는 측면에 집중하여였습니다. ViT 모델의 forwarding 과정에서 Skip Connection이 memory access cost를 유발해, 이를 depthwise seperable conv, repmixer로 바꿔줌과 동시에 Capacity 감소를 보상해주기위해 Overparameterization을 진행합니다. 또한 RepMixer 방법을 이용하여 Latency를 감소시킵니다. RepMixer 방식을 도입함과 동시에 갖게되는 작아진 Receptive field를 보완하기 위해 초반에 Large Kernel Convolution (7x7) 을 추가하여 이를 보완하는 방식을 제안했습니다. 이러한 방식을 통해 제안된 FastVIT 모델은 결국 self-attention 구조로 이루어진 Transformer 보다는 ConvNet에 가까워진 논문의 이름과는 멀어진 형태를 갖게 되었습니다. 모델의 경량화 관련해서 최근들어 여러 흥미로운 논문을 Apple 측에서 많이 내어, 궁금했던 논문 중 하나였는데 발표자 분께서 차근차근 잘 설명해주셔서 이해하기 매우 편했습니다. 좋은 발표 감사합니다.


  • 2024-01-24 23:21

    이번 세미나에서는 "FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization"에 대해 소개해주셨습니다. 해당 논문은 Apple에서 진행한 연구로, Vision Transformer 즉, ViT의 computational cost와 latency 문제를 해결하는 것을 목적으로 하고 있습니다. FastViT라는 방법론은 skip-connection의 구조를 보다 효과적으로 재구성하는 것으로 computational cost를 효과적으로 감소시킵니다. 이때 reparameterization 및 large kernel convolution을 적용하는 것으로 skip-connection을 보완하고 있으며, 이를 통해 latency를 최소화하며 모델의 성능 또한 유지시킬 수 있게 됩니다. 다소 생소한 분야였음에도 무엇보다 발표자께서 해당 내용을 구체적으로 전달해주시어 더욱 이해에 도움이 되었던 것 같습니다. 좋은 발표 감사드립니다.


  • 2024-01-24 23:49

    본 세미나는 정기윤 발표자님께서 “ FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization”라는 논문을 바탕으로 진행해주셨습니다. 해당 논문이 제안하게 된 배경은 vision transformer의 구조 일부를 convolution로 변경한 hybrid vision transformer라는 모델이 성능과 효율성면에서 개선을 일으켰습니다. 그 중에서도 edge device에서 SOTA latency-accuracy trade-off를 가진 hybrid vision transformer인 FastViT를 제안하였습니다. 특히 흥미로웠던 점은 large convolution kernel이라는 것을 통해 작은 receptive field를 갖게 하여 큰 연산량인 self attetion을 대체 할 수 있게 한 것입니다. Vit구조가 복잡한데도 불구하고 설명을 차근차근 잘해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-01-25 01:30

    이번 세미나는 “ FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization”으로 진행되었습니다. 기존 vision transformer의 계산 비용이 크다는 점을 개선하기 위해 일부를 convolution으로 교체한 hybrid vision transformer를 제안하였습니다. FastViT는 token embedding과 token mixing으로 나누어져 전자는 patch embedding에서 차원이 증가하여 연산량이 증가하는 부분에 depthwise seperable convolution을 적용하였고 그로인해 capacity 감소를 보완하는 overparameterization을 적용했습니다. 후자에서는 RepMixer를 적용한 후 ConvFFN을 이용하여 accuracy와 robustness를 향상시켰습니다. 해당 세미나를 통해 edge device상에서 latency를 최소화하는 방법에 대해서 살펴볼 수 있었습니다. 좋은 발표 감사합니다.


  • 2024-01-25 23:13

    이번 세미나에서는 "FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization"라는 논문을 다루어주셨습니다. 해당 논문은 성능 저하를 최소화하면서 ViT의 연산량을 효율적으로 줄인 FastViT 구조를 제안하였습니다. 애플에서 발표한 논문인데 skip connection 구조를 제거하여 memory access 비용을 낮춘 RepMixer 방법을 제안했습니다. Latency 측면에서 약 2배정도 SOTA 성능을 개선하였고, 비슷한 latency 기준 성능은 4%정도 향상시켰습니다. 핵심적인 내용은 크게 RepMixer를 활용한 skip connection 제거와 early stage에서 self attention layer를 large conv kernel로 대체한 부분이였는데, 오늘 세미나를 통해서 연산량 관점에서 어떤 부분이 병목으로 작용하는지 파악할 수 있었습니다. 이번 세미나를 통해서 ViT라는 구조에 대해서 연산량과 latency라는 측면에서 파악해 볼 수 있어 매우 흥미로웠습니다. 좋은 발표 감사드립니다.


  • 2024-01-23 19:03

    이번 세미나는 FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization를 주제로 진행되었습니다. 본 논문에서 제안하는 FastViT는 computational cost를 낮추어 실제 업무 환경, 개인 유저 활요이 가능하게 하는 것을 목표로 하고 있으며, 실제 edge device에서의 latency를 줄이고자 하였습니다. 저자들은 메모리에 접근할 때 발생하는 memory access cost가 latency를 증가시키는 요인으로 두었으며, 기존의 skip-conncetion이 memory access cost가 높다고 주장하였습니다. FastViT는 patch embedding, token mixing 두 파트로 구성되어 있으며, 각 파트 모두 inference 시에 reparameterization을 수행하여 모델은 단순화 하였습니다. 모델 경량화에 대한 기존의 방법론들 포함 다양한 방법론들을 설명해주셔서 유익한 시간이었습니다. 좋은 발표 감사합니다.


전체 501
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10304
관리자 2020.03.12 0 10304
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8919
관리자 2020.03.12 0 8919
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10027
관리자 2020.03.12 0 10027
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (3)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 44
Sunghun Lim 2025.04.24 0 44
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (4)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 64
Suyeon Shin 2025.04.21 0 64
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 122
Woongchan Nam 2025.04.16 0 122
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 219
Kiyoon Jeong 2025.04.16 0 219
494
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 290
Hyeongwon Kang 2025.04.09 0 290
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 286
Jaehyuk Heo 2025.04.02 0 286
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 281
Jaehee Kim 2025.04.02 0 281
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 253
Jungho Lee 2025.04.02 0 253
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 247
Hankyeol Kim 2025.03.25 0 247
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 357
Sieon Park 2025.03.19 0 357

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호