[Paper Review] ViDT: An Efficient and Effective Fully Transformer-based Object Detector

Paper Review
작성자
Kyoosung So
작성일
2022-04-04 09:17
조회
2261
1. 논문 제목 : ViDT: An Efficient and Effective Fully Transformer-based Object Detector

2. 논문 설명

ViDT는 object detection task에 YOLOS의 구조를 활용하되 YOLOS가 갖는 아래와 같은 한계점을 보완하는 구조입니다.
  • Canonical ViT를 사용하기 때문에 모델의 크기 증가에 따른 성능-latency 증가의 trade-off에 취약함
  • 또한 Swin Transformer 구조를 활용할 수 없는데, 이는 detection/segmentation 등의 task에 대해 성능 개선의 한계를 가져옴
  • Neck 구조를 활용하지 못하기 때문에 추가적인 기법 활용이 어려움
ViDT는 위 사항들에 대해 RAM(Reconfigured Attention Module)을 활용함으로써 Swin Transformer의 활용을 가능케 하였으며, 특히 Neck 구조를 추가함으로써 Swin Transformer가 출력하는 multi-scale의 feature를 활용함 뿐만 아니라 iterative box refinement와 같은 기법을 활용할 수 있게 되었습니다. 결과적으로 모델의 scalability를 높이면서도 detection에 높은 성능을 보이는 구조라고 할 수 있습니다.

3. 발표자료 및 영상
  • 발표자료 : 하단 첨부
  • 발표영상 : 영상 업로드 예정
전체 21

  • 2022-04-12 14:57

    본 세미나는 Object Detection에 대한 내용이었으며, 먼저 Transformer와 이분매칭 기반의 DETR, DETR에 Deformable Convolution을 활용한 D-DETR, Shifted Window를 통해 Detection과 같이 다양한 패치를 살펴봐야 하는 Task에 어울리는 Swin Transformer, 마지막으로 DETR과 달리 decoder를 사용하지 않고 ViT를 그대로 사용하지만 [DET] 토큰을 추가해 Object Query의 역할을 수행하도록 하는 YOLOS를 전체적으로 간략하게 설명해주셨습니다. 이어 본 모델인 ViDT는 YOLOS 구조를 차용하지만 Neck 구조를 추가하고 새로운 Attention (RAM)을 도입합니다. RAM은 Global Attention으로부터 오는 연산량을 주링고, 모델 사이즈를 키울 수 있도록 하는 어텐션 구조이며, 패치와 [DET] 토큰간의 반복적인 연산을 수행하도록 합니다. 덕분에 어렵게 느껴지는 Object Detection에 대한 Overview를 쉽게 이해할 수 있었으며 좋은 발표 감사합니다.


  • 2022-04-19 21:18

    이번 세미나는 ViDT: An Efficient and Effective Fully Transformer-based Object Detector 논문입니다. YOLOS 의 한계점을 해결하고자 Transformer 계열의 Object Detector 입니다. YOLOS 에서 연산 패치 개수가 늘어나거나 모델의 크기를 키울때 성능과 속도의 trade off 관계를 해결하고자 했고, neck 구조를 활용하는 방식을 사용합니다. ViDT 의 경우 Swin transformer 자체가 fine grained feature 를 추출하므로 인코더 구조가 필요없습니다. 이후 디코더에서는 auxiliary decoding loss, iterative box refinement 를 사용하는데 박스보정의 효과가 있습니다. object detection 에서 최신논문을 follow up 할수있어 좋은 세미나 시간이였습니다. 감사합니다.


  • 2022-05-19 11:18

    이번 세미나는 ViDL을 주제로 진행되었습니다. ViDL은 YOLOS의 구조를 거의 그대로 사용하지만 canonical ViT를 사용하거나, neck 구조를 활용하지 못하는 한계 때문에 발생하는 점들을 보완하였습니다. 기존 모델들의 장점을 취합한 형태로 볼 수 있으며 RAM 을 통해 [PATCH]*[PATCH], [DET]*[DET], [DET]*[PATCH]로 attention을 나누어 사용하였습니다. 이를 통해 fine-grained feature 추출이 가능해졌으며 detection 성능이 개선되었습니다. DETR 발표때도 도움을 많이 받았는데, D-DETR과 swin transformer, YOLOS까지 정리해주셔서 5가지 논문의 핵심을 알 수 있었습니다. 감사합니다.


  • 2022-06-27 22:35

    이번 세미나는 ViDT: An Efficient and Effective Fully Transformer-based Object Detector에 대해 진행되었습니다. ViDT는 object detection을 위해 제안된 모델이며, 기존의 YOLOS가 가지는 모델 사이즈에 따른 성능 및 추론 속도 간 trade-off를 해결하고자 하였습니다. 따라서 YOLOS의 구조를 기반으로하되, encoder-free neck 구조를 추가하고, 새로운 attention mechanism인 RAM을 도입하여 이러한 한계를 극복하고자 하였습니다. 이때 RAM은 기존의 global attention과 달리 특정 조합에 대한 attention을 사용하는 방식으로 연산량을 줄였는데, 이는 언어모델인 bigbird 등에서 활용한 방식과 유사한 것 같습니다. 좋은 발표 감사합니다.


  • 2022-04-04 10:18

    이번 세미나는 ViT를 기반으로 Object detection을 수행하는 ViDT를 주제로 진행되었습니다. ViDT는 기존의 YOLOS가 모델의 사이즈가 커지거나 패치의 수가 증가하였을 때 모델 성능과 추론 속도의 trade off가 있다는 점과 auxiliary loss 같은 기법을 사용하지 못한다는 한계점을 해결하고자 하였습니다. ViDT는 YOLOS의 구조를 차용하였으나 Neck 구조를 추가하여 swin transformer를 수행 가능하게 하였습니다. swin transformer를 활용하므로서 fine-grained feature를 추출하고 Patch와 DET token을 나누어 attention을 수행하는 RAM(Reconfigured Attention Module)을 통해 효율적으로 수행할 수 있습니다. ViDT의 디코더는 각 layer마다 DET token을 출력하여 Auxiliary decoding loss, Iterative Box Refinement 두가지의 auxiliary technique을 사용하였습니다. 기존의 한계를 개선하기 위해 여러 방법을 고려한 점과 그렇게 하여 모델의 성능과 효율성을 챙겼다는 점이 인상 깊었습니다. 발표자분께서 관련 연구에 대해 기존에 세미나, PYSR로 진행했었는데 이에 대해 간략하게 다시 언급하면서 해당 연구의 일련의 흐름과 개선점들을 한번에 들을 수 있어 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2022-04-04 15:22

    금일 세미나는 object detection을 위한 모델인 YOLOS의 한계점들을 보완한 ViDT에 대한 소개로 진행되었습니다. YOLOS는 ViT 구조에 [DET] 토큰을 추가하고, classification과 regression을 위한 MLP layer를 통해 물체를 검출하도록 구성됩니다. 하지만 YOLOS는 image patch 개수가 증가함에 따라 연산량이 커지고, 물체 검출 성능이 다소 낮다는 한계점을 가집니다. 이에 ViDT는 transformer decoder의 추가적 사용과 Reconfigured Attention Module(RAM)을 추가하여 이러한 YOLOS의 한계점을 개선하였습니다. 특히 인상적이었던 부분은 RAM이었는데, 연산량을 고려하면서 [PATCH] 간, [PATCH]-[DET] 토큰 간, [DET] 토큰 간의 attention연산을 나누어서 수행할 수 있게 설계한 점이 참신하다고 생각했습니다. Object detection과 관련된 DETR, D-DETR, Swin Transformer를 포함하여 관련 논문들을 잘 정리해주셔서 흐름을 따라가기 좋았습니다. 유익한 발표 감사합니다.


  • 2022-04-04 16:24

    금일 세미나는 "ViDT: An Efficient and Effective Fully Transformer-based Object Detector" 논문에 대해 소개해주셨습니다. 본 논문에서 소개하는 ViDT는 최근 ViT의 등장 이후로 classification task 이외에도 object detection에서 많은 시도가 이뤄지고 있는 가운데 one-stage detection model로서 나온 YOLOS의 개선된 모델 구조라고 볼 수 있습니다. 기존 YOLOS의 한계점인 neck구조가 없다는 점을 DETR와 같은 방법으로 Transformer의 Decoder를 추가하여 multi-scale의 feature map을 고려할 수 있게 해주고 이러한 점 덕분해 iterative box refinement를 함께 적용하여 한계점을 해결하였습니다. 본 논문에서 제안한 방법은 성능적인 측면에서는 SOTA가 아니지만 transformer의 새로운 활용성과 기존 방법을 적절하게 개선한 점에서 인상깊게 보았습니다. 오늘도 좋은 발표 해주셔서 감사합니다.


  • 2022-04-05 13:10

    이번 세미나에선 ViDT: An Efficient and Effective Fully Transformer-based Object Detector 라는 논문이 소개되었습니다. ViDT는 이전 연구인 YOLOS 에서 [DET] 토큰을 함께 입력으로 사용하는 구조를 활용하면서, 이외 YOLOS 가 가진 구조적인 한계를 개선한 연구입니다. YOLOS 에선 patch level 의 여러 입력을 사용하면서 연산량이 증가한다는 점과 별도의 neck 구조를 활용하지 않아 이전까지 detection 분야에서 검증된 multi-scale feature map 을 활용할 수 없다는 점이 단점이었는데 ViDT 에선 이 부분을 효율적인 연산량을 가지는 attention 구조인 RAM 과 encoder-free neck 구조를 통해 개선합니다. 이외에도 성능 향상을 위해 사용한 auxiliary techinique 들은 이전 object detection 에서도 사용되던 방법을 적용한 것으로 보이고, 이러한 방법들을 집약한 ViDT 는 성능과 연산 효율성 면에서 모두 대부분의 기존 연구들 이상의 성능을 보여줍니다. 실험 결과를 보면 Deformable DETR 이 몇몇 지표에서 ViDT 이상의 성능을 보였는데, D-DETR 에서 사용한 deformable convolution 방식이 연산량을 추가로 사용하면서 좀 더 효율적인 attention 이 가능하기 때문인 것으로 생각하였습니다. 본 논문 소개에 앞서 발표자분께서 관련 연구로 DETR, D-DETR, YOLOS 등에 대해서도 잘 정리해주셨고, 이전에 세미나나 pysr 영상을 통해서 다루셨던 연구라고 하니 더 신뢰를 가지고 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2022-04-06 01:21

    이번 세미나는 ViT를 기반으로하여 물체 탐지(object detection) task를 수행하기 위한 모델인 ViDT가 소개 되었습니다. ViDT는 이전의 유명 방법론인 YOLOS를 보완하였는데요. YOLOS는 연산 속도와 물체 탐지 성능이 서로 반 비례 관계에 놓였지만 ViDT는 두 가지 특성을 모두 향상 시킬 수 있었습니다. 이러한 결과를 내기 위해 ViDT는 [DET] 토큰을 추가하고 Transformer의 decoder와 Reconfigured Attention Module을 활용하였습니다. 특히 Transformer의 decoder를 추가하는 방식은 DETR의 방법에서 차용한 것으로 YOLOS에서 neck 구조가 없는 점을 보완한 것으로 볼 수 있습니다. ViT를 활용하여 물체 탐지를 실시한 내용을 처음 접하였는데 발표자분 께서 관련 내용들도 잘 정리해주셔서 흥미롭게 들을 수 있었습니다. 해당 내용 반복해서 살펴봐야겠습니다. 좋은 발표 감사합니다.


  • 2022-04-06 04:44

    이번 세미나는 ViT 모델을 기반으로 하며 YOLOS의 한계점을 보완한 ViDT: An Efficient and Effective Fully Transformer-based Object Detector라는 논문으로 진행되었습니다. ViDT는 기본적으로 YOLOS의 구조를 차용하지만 모델의 크기를 키울수록 발생하는 trade-off가 심하고, 외적인 기법의 사용이 어렵다는 YOLOS의 한계를 개선하기 위해 neck 구조를 추가하고 새로운 attention 메커니즘인 RAM을 도입한 구조로 되어있습니다. 해당 방법론에서 가장 인상 깊었던 RAM(Reconfigured Attention Module)이란 [PATCH]와 [DET]을 한번에 연산하지 않고 [PATCH]X[PATCH], [DET]X[PATCH], [DET]X[DET]로 나누어 어텐션 연산을 수행함으로써 연산량의 부담을 줄이고 모델의 사이즈를 키울 수 있도록 하는 새로운 어텐션 메커니즘입니다. 토큰을 그룹지어 어텐션 연산을 수행하는 방식으로 global attention으로부터 오는 연산량의 부담을 줄일 수 있다는 게 인상 깊었습니다. 개인적으로 비전 분야에 대한 배경 지식이 부족한 게 매우 아쉽게 느껴졌던 세미나였던 것 같습니다. 다음에 기회가 된다면 배경지식을 갖춘 채 다시 세미나 영상을 시청하고 싶습니다. 유익한 발표 감사합니다.


  • 2022-04-06 10:02

    Transformer 계열은 object detection에서도 활발하게 연구되고 있습니다. 발표자께서 꾸준하게 세미나를 통해 소개해 주시고 계시는데, 이번 세미나에서는 ViDT: An Efficient and Effective Fully Transformer-based Object Detector 라는 제목의 연구를 살펴보았습니다. 우선 본 연구는 YOLOS라는 선행 연구의 한계를 지적하고 있습니다. YOLOS는 구조적인 한계 때문에 OD domain에서 성능 향상에 필요한 neck 구조를 사용하지 못하고 있습니다. 이로 인해 YOLOS의 contribution은 성능이 아니라 연산 속도가 되는데, 본 연구에서는 이러한 구조적 한계를 보완하고 있습니다. 본 연구의 저자들은 YOLOS와 다르게 decoder를 사용하고 있으며, reconfigured attention module block을 사용하여 연산량도 함께 고려하고 있습니다. 이를 통해 검출 속도도 높이면서 보다 정확한 검출 정확도를 보이고 있습니다. 최근에 Transformer-based model의 self attention cost를 줄이는 많은 연구들이 진행되고 있는데 생각보다 빠르게 다른 연산으로 대체될 수도 있지 않을까 라는 생각이 들었습니다. 발표 감사합니다.


  • 2022-04-06 11:09

    ViT 이후로 이미지 분야에서 트랜스포머 구조를 이용하기 위한 다양한 연구들이 진행되고 있습니다. 이번 세미나에서는 object detection task에 ViT를 적용한 ViDT가 소개되었습니다. ViDT는 이미지 분야에서 사용되는 Swin Transformer나 YOLOS와 같은 다양한 트랜스포머 모델 구조를 포함하고 있는 모델입니다. YOLOS가 인코더 구조를 기반으로 하기 때문에 모델 크기를 키우고 힘들고, neck구조가 존재하지 않아 multi scale 정보나 auxiliary loss의 활용이 어렵다는 점을 Swin Transformer처럼 neck구조를 도입하여 해결하고 있습니다. 이때 모든 레이어에서 DET 토큰과 patch 토큰 간의 attention을 연산하지 않고 레이어마다 토큰 간 attention 연산을 달리하여 연산량을 줄이면서 성능을 확보했다는 점이 흥미로웠습니다. 이미지 분야에 적용되고 있는 트랜스포머 모델은 아직 익숙치 않은데, 발표자 분께서 DETR부터 YOLOS까지 다양한 모델을 일목요연하게 설명해주셔서 큰 흐름을 잡을 수 있었던 것 같습니다. 감사합니다.


  • 2022-04-06 16:45

    ViDT에 대해 소개해주셨습니다. ViT 구조를 활용하는 YOLOS 모델은 neck이라 불리는 transformer decoder가 별도로 존재하지 않아 일정 수준 이상의 성능 향상을 기대하기가 어렵다고 합니다. 따라서 Det 토큰을 query, det토큰과 patch 토큰을 key, value로 설정하는 조금 다른 형태의 RAM 어텐션을 도입합니다. 개인적으로 최근 비전 도메인에서는 research question을 데이터보다 모델 자체에서 많이 찾는 것 같습니다. 그만큼 이미 많은 발전이 이루어졌다는 것을 말하는 것 같기도 하고, 그래서 더 도전적이고 다양한 실험들이 이루어지는 것 같기도 합니다. ViT 관련 연구에 대해서는 아직 해결해야 할 문제가 많은데 본 논문은 상대적으로 어려운 detection task에서 실험을 진행했다는 점에서 중요한 방법론인 것 같습니다. 발표 잘 들었습니다.


  • 2022-04-06 22:12

    이번 세미나는 ICLR 2022에 등재된 ViDT: An Efficient and Effective Fully Transformer-based Object Detector를 주제로 진행되었습니다. 논문 제목에서 알 수 있듯, ViDT는 Vision 분야에서 Object Detection task를 수행하며, 기존 YOLOS의 한계를 보완한 구조를 가진 Vision Transformer(ViT) 계열 모델입니다. ViT 이후 발표됐던 DETR, D-DETR, Swin Transformer, YOLOS를 차례로 소개해주셔서 관련 연구 흐름을 파악하는데 도움이 되었습니다. 이 중 DETR은 transformer의 encoder/decoder 구조를 활용하는 반면, YOLOS는 encoder만 활용한다는 차이가 있습니다. ViDT는 YOLOS의 한계로 Canonical ViT를 사용하여 모델을 키웠을 때 기대할 수 있는 성능 및 속도에서 trade-off가 있다는 점과 Neck 구조가 없어 fine-grained feature를 추출하거나 auxilary loss 등 성능에 영향을 미치는 방법론의 활용이 어렵다는 점을 들고 있습니다. 이에 따라 YOLOS의 구조에 Neck 구조인 transformer decoder를 추가하고 RAM이라는 attention 메커니즘을 도입하여 두 한계를 극복하고자 했습니다. 실험 결과를 통해 추론 속도와 정확도에 있어서 경쟁적인 구조임을 증명해보였습니다. 발표 자료에 첨부해주신 그림이나 도식이 이해하는데 도움이 되었습니다. 유익한 발표 진행해주셔서 감사합니다.


  • 2022-04-06 22:13

    금일 세미나에서 소개된 논문은 ViDT: An Efficient and Effective Fully Transformer-based Object Detector입니다. ViDT 는 Object detection인 YOLOS를 기반으로 transformer encoder만으로 이루어진 구조의 한계점을 개선하고 새로운 attention 매커니즘인 RAM을 도입해 개선한 모델입니다. ViDT에서는 decoder인 Neck구조를 추가하여 multi-scale feature를 hierarchical하게 추출할 수 있는 Swin Transformer 구조를 활용할 수 있도록 했고, patch와 det 토큰 간의 attention을 계산할 수 있도록 했습니다. RAM(Reconfigured Attention Module)은 효율적인 연산량을 위해 patch 간, det간, 그리고 한번의 det와 patch 간의 cross attention을 나누어 수행하도록 고안한 것입니다. 또한, detection 성능을 높이기 위해 auxiliary decoding loss와 iterative box refinement를 사용했습니다. 전반적으로 성능과 모델 complexity를 함께 고려한 방법론이었습니다. 세미나 발표에서 background 논문에 대한 흐름을 짚어 주시고 한계점을 명확하게 설명해주셔서 발표를 잘 이해하며 따라갈 수 있었습니다. 또한 요즘 들어, swin transformer 이후, hierarchical한 구조로 mult-scale을 잘 학습하려는 모델이 많이 연구되고 있는 것 같다고 느꼈습니다. 좋은 발표 감사합니다.


  • 2022-04-06 23:05

    이번 세미나는 ViDT: An Efficient and Effective Fully Transformer-based Object Detector 논문을 다루어 주셨습니다. 항상 ViT, DETR 계열 논문들을 다뤄 주셔서 흥미롭게 듣고 있습니다. ViDT는 YOLOS의 구조를 차용하며 해당 구조에 Neck 구조(transformer decoder)를 추가하고 새로운 attention 메커니즘(RAM)을 도입합니다. Swin-Transformer(ST)는 window 및 shifted window 기반의 attention등을 활용하여 local한 이미지의 특성을 transformer 구조를 활용하면서도 잘 잡아낼 수 있도록 하는 모델이나 이를 YOLOS에 사용하기에는 연산이 너무 많아져서 현실적으로 불가능합니다. 하지만, Neck 구조와 효율적인 어텐션 연산을 수행하는 RAM을 통해 효율성이 크게 개선됨으로써 이전 연구보다 더 좋은 detection 성능이 나올 수 있게 되었습니다. 본 연구는 기존에 있는 연구들을 효율적으로 잘 혼합하여 최적화함으로써 좋은 성능을 낼 수 있었던 것 같습니다. 유익한 발표 감사합니다!


  • 2022-04-06 23:21

    이번 세미나에서는 iDT: An Efficient and Effective Fully Transformer-based Object Detector 논문을 다루어 주셨습니다. 기존의 YOLOS에는 모델의 크기가 커지거나 연산 패치수가 늘어날 때 성능과 추론 속도에 있어서의 한계점과 Neck 구조를 활용하지 못하면 방법론의 활용이 어렵다는 한계점 등이 존재하였습니다. ViDT에서는 Neck 구조를 추가하고 새로운 attention 매커니즘인 RAM을 도입하여 이러한 한계점을 극복하고자 합니다. ViDT의 Neck구조에서는 [PATCH]와 [DET]간 한번 더 attention 연산을 수행합니다. 이 구조의 추가로 인하여 swin transformer를 활용할 수 있게 됩니다. RAM(Reconfigured Attention Module)은 global attention의 연산량 부담을 줄이고, 모델의 크기를 키울 수 있도록 하는 어텐션 구조입니다.결과적으로 swin-base모델을 활용하는 경우에도 높은 성능을 달성합니다. 해당 논문에서 어떤 식으로 기존 방식인 YOLOS의 한계점을 해결해나갈지 보여준 점이 인상적입니다. 또한, 초반에 DETR,D-DETR,Swin Transformer, YOLOS 등의 백그라운드를 많이 설명해주셔서 이해에 도움이 되었습니다. 좋은 발표 감사드립니다!


  • 2022-04-09 15:59

    금일 세미나는 "ViDT: An Efficient and Effective Fully Transformer-based Object Detector"라는 주제로 진행되었습니다. 본 발표에서는 YOLOS의 구조를 발전시킨 object detection 모델 ViDT가 소개되었습니다. 해당 모델은 Reconfigured Attention Module (RAM)을 활용하여 YOLOS에서 Swin Transformer를 사용할 수 있도록 개선함으로써 detection과 segmentation task의 성능을 향상시켰습니다. 또한, Neck 구조를 추가하여 iterative box refinement 기법을 활용할 수 있도록 구조를 개선함으로써 모델의 scalability를 높였습니다. 개인적으로 Swin Transformer를 활용할 수 있도록 한 RAM의 활용이 가장 인상 깊었습니다. RAM은 일반적인 global attention을 사용하지 않고 token의 조합에 대한 attention을 사용하여 연산량을 줄임으로써 효율성을 크게 증가시켰습니다. 최근 시계열 이상치 탐지 모델에서도 Transformer 구조가 많이 사용되고 있는데 해당 부분에서도 이 아이디어를 활용하여 연산 효율성을 높일 수 있을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2022-04-11 14:59

    본 세미나를 통해 ViDT: An Efficient and Effective Fully Transformer-based Object Detector 에 대한 내용을 리뷰하였습니다. ViDT의 우 기존의 YOLOS의 구조를 차용하지만 Neck 구조(Transformer Decoder)를 추가하고 새로운 attention mechanism (RAM)을 도입하여 기존 YOLOS의 한계점을 개선하였습니다. Neck 구조가 추가되었기 때문에 swin transformer를 활용할 수 있게되어 인코더 자체로 fine-grained feature를 추출할 수 있습니다. 또한 swin transformer의 attention 연산시 RAM(Reconfigured Attention Module) 을 활용하여 계산 효율성을 크게 개선하였습니다. 결론적으로 ViDT는 성능과 연산 효율성을 모두 개선 시킨 model 이었습니다. 본 발표의 경우 object detection, Vision Transformer 등의 background 설명이 상세히 이루어졌습니다. Background에 대한 충분한 설명으로 이해가 훨씬 더 수월했습니다. 좋은 발표 감사합니다.


  • 2022-04-11 17:49

    금일 세미나는 ViDT: An Efficient and Effective Fully Transformer-based Object Detector연구에 대해 진행되었습니다. 논문 명에서 알 수 있듯, transformer 기반의 object detection 모델에 관한 연구였습니다. 대학원 입학 초반, pose estimation과 더불어 object detection에 관심을 갖고 있었으나, 시간이 지나면서 자연스럽게 관련 연구들에 대한 follow-up이 잘 되지 않아왔었습니다. 발표자 분의 세미나 내용을 통해 많은 최근의 연구들을 확인할 수 있었습니다. 우선, 감사의 말씀을 드립니다. 이미지 도메인에 적용될 수 있는 transformer기반 연구들이 많이 진행되어왔고, object detection도 예외는 아니었나 봅니다. 오늘 소개해주신 ViDT연구는 기존 transformer encoder only 모델에 decoder part와 attention연산을 추가해 성능을 개선합니다. transformer의 연산에서 큰 부분을 차지하는 attention부분을 Reconfigured Attention Module로 해결하고자 합니다. Attention 연산을 token과 Patch간에 서로 조합해 그 경우의 수를 낮춰 연산 부담을 덜어주고자 합니다. Scalability를 높여가면서도 정확도와 추론 속도 면에서 우수한 성능을 보이는 점이 인상깊었습니다. 추후에 종합적으로 기존의 1-stage detector, 2-stage detector들과 종합적으로 transformer 기반의 방법론들을 비교해보고 싶다는 생각이 들었습니다. 많은 내용 준비해주신 발표자 분께 감사드립니다. 다시 한 번 좋은 발표 감사드립니다.


  • 2022-04-11 23:00

    이번 세미나는 ViDT: An Efficient and Effective Fully Transformer-based Object Detector 논문을 소개해 주셨습니다. ViDT는 Object Detection Task에서 활용될 수 있는 모델이며, ViT 구조를 활용하는 YOLOS에서 개선된 모델이라고 합니다. 기존 모델인 YOLOS는 인코더를 기반으로 하기 때문에 모델의 크기가 커지면 연산량이 커지며, Swin Transformer 구조를 활용할 수 없기 때문에 detection/segmentation 등의 task에 대해 성능 개선의 한계가 존재한다고 합니다. ViDT는 YOLOS 구조에 RAM(Reconfigured Attention Module)을 활용하고, Neck 구조를 추가해 Swin Transformer를 활용 가능하게 하였습니다. 덕분에 연산량 때문에 모델의 크기를 증가시키기 어렵다는 점을 어느 정도 해결하였고, 성능 또한 개선할 수 있었다고 합니다. 요즘 nlp 이외의 분야에서 transformer가 활용되는 많은 사례를 듣게 되는데, 특히 이미지 분야에서 적용되는 경우가 아직은 어려운 것 같습니다. 그러나 발표자께서 기존 모델의 한계점부터 차례대로 설명해 주셔서 이해하기 좋았습니다. 좋은 발표 감사합니다.


전체 504
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10506
관리자 2020.03.12 0 10506
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9114
관리자 2020.03.12 0 9114
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10228
관리자 2020.03.12 0 10228
501
New [Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning
Hun Im | 11:21 | 추천 0 | 조회 4
Hun Im 11:21 0 4
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (9)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 108
Junyeong Son 2025.05.08 0 108
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (13)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 141
Doyoon Kim 2025.05.01 0 141
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 255
Sunghun Lim 2025.04.24 0 255
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 193
Suyeon Shin 2025.04.21 0 193
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 211
Woongchan Nam 2025.04.16 0 211
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 409
Kiyoon Jeong 2025.04.16 0 409
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 418
Hyeongwon Kang 2025.04.09 0 418
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 420
Jaehyuk Heo 2025.04.02 0 420
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 414
Jaehee Kim 2025.04.02 0 414

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호