번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10343
|
관리자 | 2020.03.12 | 0 | 10343 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 8954
|
관리자 | 2020.03.12 | 0 | 8954 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10063
|
관리자 | 2020.03.12 | 0 | 10063 |
499 |
New [Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 11
|
Doyoon Kim | 2025.05.01 | 0 | 11 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (10)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 113
|
Sunghun Lim | 2025.04.24 | 0 | 113 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (11)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 106
|
Suyeon Shin | 2025.04.21 | 0 | 106 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (14)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 153
|
Woongchan Nam | 2025.04.16 | 0 | 153 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (16)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 294
|
Kiyoon Jeong | 2025.04.16 | 0 | 294 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (15)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 328
|
Hyeongwon Kang | 2025.04.09 | 0 | 328 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 317
|
Jaehyuk Heo | 2025.04.02 | 0 | 317 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 320
|
Jaehee Kim | 2025.04.02 | 0 | 320 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 272
|
Jungho Lee | 2025.04.02 | 0 | 272 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 253
|
Hankyeol Kim | 2025.03.25 | 0 | 253 |
최근 이미지넷 성능에서 순윈권 안에 드는 방법론들은 모두 vision transformer 기반의 방법론입니다. 비록 Extra data를 추가로 활용했을 때에 국한되지만 최근에는 VOLO라는 extra 데이터를 활용하지 않는 transformer 기반의 방법론 제안이 되어서 정말로 cnn보다 우위에 있는 방법론일 수도 있겠다는 생각을 하고 있습니다. 본 논문에서 제안한 방법론에서는 이미지 데이터에 객체가 다양한 크기를 갖는 점을 지적하며 이를 잘 반영하기 위해 다양한 윈도우 크기를 사용할 것을 제안합니다. 그리고 윈도우 내의 attention과 윈도우 간의 attention을 진행하는데 이 때, 다른 윈도우 간의 attention을 위해 cyclic shift를 활용한 점이 인상 깊었습니다. 한 편, vision transformer는 큰 데이터 용량을 기반으로 하는 만큼 여전히 작은 데이터 셋에 대해서는 아직 성능이 좋지 못한대 이 문제는 어떤 방식으로 해결할지 매우 기대가 됩니다. 좋은 발표 감사드립니다.
금일 세미나는 “Swin Transformer : Hierarchical Vision Transformer using Shifted Windows에 대한 리뷰로 진행되었습니다. Vision transformer를 보다 발전시킨 모델로서, text와 다르게 이미지가 갖고 있는 해상도, 물체의 크기 등을 고려해야한다는 특성을 고려하여 local window개념을 도입하였습니다. Local window를 활용함으로써, global attention을 전체 이미지에 적용하는 ViT보다 연산량을 줄일 수 있었습니다. 구체적으로는 local window 내에 적용하는 self attention (W-MSA), 그리고 local window 간의 self attention (SW-MSA)을 각각 적용하게 됩니다. 특히 SW-MSA를 위해 cyclic shift와 attention mask를 활용했는데, 아이디어가 매우 참신하다고 생각했습니다. SW-MSA 연산이 이루어지는 부분이 처음 논문을 읽을 때는 잘 이해가 가지 않았는데, 시각자료가 풍부하여 발표를 들으면서 이해할 수 있었습니다. 유익한 발표 감사합니다.
이번 세미나는 비젼 분야에 transformer를 도입한 Swin Transformer: Hierarchical Vision Transformer using Shifted Window에 대한 논문입니다. 기존 연구에서는 텍스트가 아닌 이미지의 특성이 ViT 모델에 존재하지 않았고, 토큰 수에 따라 연산량이 기하급수적으로 증가하였습니다. 이를 해결하기 위해, 개발된 Swin Transformer는 local window를 적용하여 inductive bias를 개입하였고, patch merging을 통해 계층적인 구조를 형성하여 이미지의 특성을 고려하였고 다양한 vision task 에 활용 가능성이 높은 모델이 되었습니다. 비젼 분야에 transformer 를 도입한 또 다른 방법론을 배울 수 있었고 구제척인 예시로 단계별로 자세히 설명해주셔서 이해가 잘되는 발표였습니다. 좋은 발표 감사합니다.
ㅤ이번 세미나는 "Swin Transformer: Hierarchical Vision Transformer using Shitted Windows"라는 논문으로 최근 이슈가 되는 Vision Transformer의 계보를 잇는 논문 중에 하나 입니다. 해당 논문은 기존 ViT 모델의 한계점을 다음과 같이 3가지로 지적합니다.
ㅤ(1) 오직 이미지 분류라는 단순한 문제를 풀기위해 사용됨
ㅤ(2) 이미지를 위한 특징인 해상도와 물체의 크기에 대한 고려가 존재하지 않음
ㅤ(3) Token수가 증가함에 따라서 연산량이 Quadratice하게 증가함.
ㅤ저자들은 SwinTransformer라는 모델을 제안하는데 이는 다양한 목적에 backbone으로 사용될 수 있으며, Transformer구조에 이미지의 특성을 반영할 수 있는 방법이며, 기존 ViT모델보다 더 적은 연산량을 갖게함으로써 앞에서 지적한 문제를 해결해 버립니다. 모델의 가장 큰 특징은 Local Window라는 개념을 사용한다는 점이며, 모델의 구조는 크게 Patch Merging과 Swin Transformer Block으로 이루어집니다.
ㅤ(1) Patch Merging : 주어진 patch에 안에 있는 Hierarchical 구조를 형성함
ㅤ(2) Swin Transformer Block : Local Window과 밖에서 Self-attention이 일어날 수 있도록함
ㅤㅤ1) W-MSA : Local Window 안에서 self-attention
ㅤㅤ2) SW-MSA : Local Window간의 self-attention
1), 2) 중 SW-MSA가 인상 깊었는데, 이는 window의 Cyclic Shift를 통해 CNN window가 sliding하는 효과를 얻어내고자 하였고, attention mask을 통해 옆이 아닌 그림에 대해서는 masking 효과를 부여하였습니다. 이미지의 이동 및 attention이 많이 존재하기 때문에 다양한 예시들과 시각 자료를 이용해주셔서 이해하기 수월했습니다. 좋은 발표 감사합니다.
금일 세미나에서 다룬 모델은 Swin Transformer입니다. 본 논문은 기존 ViT보다 이미지의 구조적 특성을 잘 반영하며 더 적은 연산량을 갖는 방법론을 제안합니다. Swin Transformer는 모델 구조로 Patch Merging과 Swin Transformer 블록을 제안하는데, patch merging은 기존의 input에 대해 patch 단위로 position에 따라서 특정 차원의 vector로 embedding해주는 것이고, Swin Transformer 블록은 W-MSA와 SW-MSA 방법론을 활용해서 Local window 내, Local window 간의 self attention을 활용합니다. 특히, 이 attention 과정에서 병렬처리를 가능하도록 efficient batch computation을 사용합니다. 또 relative position bias 정보를 더하여 attention을 계산하였고, 또한, SW-MSA에서 acyclic shift를 사용하는데, 인접한 위치가 아닌 부분에 대해서는 masking을 적용한 후, self attention을 계산합니다. 실험 결과, 제안하는 방법론의 성능이 기존 ViT 다 더 좋은 성능을 보이고 빠른 연산이 이루어진 것을 알 수 있는데, 특히 Relative position을 활용했을 때 absolute position보다 더 성능이 좋다는 점이 인상깊었습니다. 그리고 그 이유에 대해서도 개인적인 견해를 공유해 주셨는데, 이미지에서 x축 방향으로의 relative position이 왜 의미가 있을 수 있는지 그 이유에 대해 듣고 공감할 수 있었습니다. 본 세미나를 위해 정말 많은 준비를 하신게 느껴지는 발표였습니다. 특히 자세한 그림 예시로 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다.
본 세미나는 Transformer를 비전 문제를 풀기 위해 활용하는 사례이며, 기존의 분류 문제만을 풀기 위한 모델인 ViT보다 더 다양한 방식으로 활용될 수 있고, 효율적인 연산량을 목적으로 합니다. 자연어에서 Transformer의 Variant들의 발전 양상과 같게, Inductive Bias가 적은 모델에 대하여 상황에 맞는 다양한 가정을 추가함으로써 성능을 향상 시키는 것을 볼 수가 있었는데, Swin Transformer도 ViT에서 부족했던 Bias를 추가했다고 볼 수 있으며, 완전히 대응하지는 않지만 Sparse Attention을 활용하는 Transformer와 유사해보였습니다. Swin Transformer에서 적용한 Bias는 이미지의 해상도와 물체의 크기에 대한 고려이며, 이를 위해 모든 패치에 대하여 Attention을 적용한 ViT와 다르게 Local Window에 대한 Self-Attention을 활용합니다. 이를 통해 기존 MSA에서 윈도우 내외 Attention을 적용하는 W-MSA > SW-MSA로 변화하는 것을 볼 수 있고 더 적은 Complexity로 학습이 가능하다고 합니다. 또한 상대적인 위치에 따른 Attention 계산시 적용하는 Relative Position Bias나 Masking 기법들이 이미지의 특징을 잘 반영하면서 효율성을 모두 달성한 것을 느낄 수 있었습니다. 결과 부분에서 재밌는 부분은 ViT와 Swin의 데이터 양에 따른 성능 향상 변화폭이었는데 이는 Inductive Bias가 Swin에서 효과적으로 적용되었음을 보여주었습니다. 자연어든 비전이든 어떤 Task에 국한하지 않는 모습을 발표자에게서 배우고 싶으며 본받고 싶습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Swin transformer에 대해서 발표해주셨습니다. Flatten Patch 단위의 이미지를 입력으로 받는 vision transformer모델을 기저로 하고 있고, BERT 구조의 cls token도 차용하고 있습니다. Swin transformer 모델은 VIT에서 local window를 사용한 방법입니다. Swin Transformer Block은 두개의 self-attention이 존재합니다. 1) W-MSA은 Local window안에서 self-attention, 2) SW-MSA: Local window간의 self-attention를 순차적으로 사용하였습니다. 먼저 W-MSA 단계에서는 X,Y축에 대해서 relative position bias을 생성해 attention value에 적용하여, attention에 상대적 위치정보가 반영이 되도록 하였습니다. SW-MSA attention 단계에서는 Local window에 대해서 Shift를 줘서 transformer encoder에 적용하지만 실제 이미지 location을 고려한 attention mask를 주게 되는 점이 인상 깊었습니다. 추가적인 트릭으로 각 Transformer block 마다 patch merging방식은 receptive field기준으로 채널별로 쪼개진 local patch들을 linear projection로 합치는 구조를 사용하였습니다. 좋은 발표 감사합니다.
오늘 세미나는 vision 분야의 다양한 task를 위한 backbone model로 사용할 수 있는 transformer기반 모델인 swin transformer에 대한 내용으로 진행되었습니다. 이 모델의 기반이 되는 모델은 ViT는 vision분야에 transformer를 사용한 vision transformer입니다. ViT는 이미지를 flatten하여 transformer의 input 형태로 만들어주고 나서 기존 transformer와 같이 cls token을 넣고, position embedding을 더해줍니다. encoder 마지막 단에는 MLP를 추가하여, MLP head를 사용해 classification task를 수행하도록 하였습니다. swin transformer는 ViT와 달리 cls token을 사용하지 않고, token들의 평균 값을 사용하여 classification 합니다. 또한 transformer block을 쌓을 때,두번째 이상의 block으로 가기 전에 매번 patch merging layer를 넣어줍니다. 이는 입력 이미지를 하나의 채널로 줄이고, 채널을 줄이면서 커진 patch의 차원을 축소시키는 과정을 통해 patch간 정보를 작은 차원으로 가져와 merging하는 역할을 합니다. 이 밖에 relative position bias, SW-MSA등의 방법을 통해 이미지에서의 attention 연산이 의미를 가질 수 있게 해주었습니다. 최근 vision 분야에서 transformer를 사용한 연구가 활발하다고 알고 있는데, 관련된 내용을 잘 설명해주셔서 많은 도움이 되었습니다. 감사합니다.
논문을 반복해서 읽을수록 어렵고 많은 내용을 담고 있는 Swin Transformer에 대해서 아주 잘 소개해주신 것 같습니다. 우선 논문은 locality를 추가하기 위해 window라는 개념을 도입하여 window 내부에 있는 패치들만 self attention을 계산합니다. 하지만 이런 방식으로는 다른 window에 있는 패치들은 고려를 할 수 없기 때문에 저자들은 acyclic shift를 진행합니다. Acyclic shift를 통해 input의 형태에 변화를 주지 않을 수 있으며 앞서 말한 window들 사이의 관계도 고려를 할 수 있습니다. 또한 patch merging을 통해 CNN처럼 feature scailing을 진행하고 있습니다. 이처럼 vision domain에 Transfomer가 들어 왔지만 여전히 inductive bias of locality는 필요한 것으로 보이며 이를 해소하기 위해 더 큰 데이터 셋을 형성하는 연구가 등장하고 이를 따를지, 지속적으로 더 좋은 locality를 부여하는 모델 구조를 만들어 내는 연구가 주를 이룰지 궁금합니다.
오늘 세미나에서는 Local Window를 도입하여 서로 다른 해상도와 물체의 크기를 갖는 Image에 적용이 가능한 Swin Transformer에 대해 소개해 주셨습니다. Image를 분할한 각 Patch의 경우 내부에 포함된 물체의 크기가 다르며, 해상도 역시 다르기에 일괄적으로 정보를 처리하기에 어려움이 있다고 이해했습니다. Swin Transformer에서는 각 Layer의 입력을 받아 Patch Merging을 수행합니다. 특정한 Patch를 구성하는 Tensor를 Flatten한 뒤, Linear Projection을 통해 전체 정보를 반영할 수 있도록 처리를 거칩니다. 이후 Attention을 수행할 Local Window를 지정하고, Window 내에서의 Self-Attention과 Window 간의 Self-Attention을 수행합니다. Image Data의 특징에 대해 아직까지 낯선 부분이 많아 한 번에 이해하기에는 어려움이 있었으나, 발표자께서 시각적으로 매우 좋은 자료를 제공해 주셨기에, 지속적으로 해당 자료를 참고할 예정에 있습니다. 좋은 발표 진행해 주셔서 감사합니다.
오늘 세미나에서는 최근에 vision 분야에서 매우 핫한 ViT를 주제로한 논문 2개였습니다. 제가 처음 ViT 접했을 때는, 그래프 쪽 에서 Grid Pixel 기반 그래프 네트워크를 통한 이미지 classification 을 보았기 때문에, patch 로 나눈 후 transfomer 에 적용한 방법론이 충분히 납득가능했습니다. patch 를 embedding 한다는 개념이 접목된 이후 에는 관련 논문들이 많이 나오고 있습니다. ViT 에서 이미지의 PATCH Position 을 inductive bias 가 없이 진행했는데, 절대적인 위치정보를 학습하게되므로, 성능이 나온다고 생각합니다. 이런 부분이 의아하긴 했는데, relative position 을 사용하면 더 학습이 잘되겠다고 생각했는데 해당 방법은 Swin Transformer 에서 진행되었습니다. 제 개인적인 생각에는 inductive bias 가 조금 더 중요하게 여겨지는 VQA 같은 task, 객체간 relation 을 해석해야 하는 task 에서 ViT 계열은 훨씬 더 큰 성능을 낼 수 있을 것 같습니다.
금일 세미나에서는 이미지에 Self-supervised 방법론을 적용한 Swin Transformer 논문에 대해 설명해 주셨습니다. 해당 논문은 기존 방법론인 Vision Transformer가 이미지의 특성정보인 해상도나 물체의 크기등을 반영하지 못한 점을 개선하기 위하여 Patch Merging과 Swin Transformer Block을 제안합니다. 해당 방법론은 Local 정보를 반영하기 위하여 inductive bias 구조에 포함시키는 방법으로써 이미지를 일정한 patch로 자르고 해당 Patch 내에서만 Self-attention을 적용하여 인접한 정보만 학습할 수 있도록 합니다. 또한 Acyclic shfit를 적용하여 이미지의 형태는 변화하지 않은 상태로 이전의 Patch 와는 다른 Patch를 생성하고 동일한 방법을 적용하여 Local 정보를 학습합니다. 이미지에서 잘 동작할 수 있도록 Local 정보를 활용하는 CNN과 비슷하게 Transformer의 구조를 변경시킴으로써 해당 논문은 다양한 실험에서 좋은 성능을 보였습니다. 또한 Local 정보를 기반으로 Self-Attention을 적용함으로써 더 적은 Computation Complexity 갖고 있는 구조입니다. 이미지와 관련된 분야는 잘 모르는 부분이 많았서 이해하기 어려웠지만 시각적으로 좋은 자료를 제공해 주셔서 잘 따라갈 수 있었습니다. 좋은 세미나 감사합니다.
금일 세미나는 "Swin Transformer : Hierarchical Vision Transformer using Shifted Windows"라는 주제로 진행되었습니다. 본 발표에서는 텍스트와 다른 이미지의 두 가지 특징인 해상도와 물체의 크기를 고려할 수 있는 Swin Transformer가 소개되었습니다. Swin Transformer에서는 Patch Merging과 Swin Transformer Block를 도입하여 local window를 사용하고 local window 내부와 사이 간의 self attention을 통해 이미지의 특성을 고려하였다. 개인적으로는 최근 세미나에서 vision transformer 관련 내용들을 청취하면서 patch를 사용한 것의 효과가 직관적으로 이해되지 않았었는데 본 발표에서 자세한 예시를 들으면서 이해에 많은 도움이 되었습니다. 더불어 빠르게 발전하고 있는 vision transformer를 보면서 해당 분야에서 나온 아이디어들을 image-based anomaly detection 분야에 적용하는 것도 하나의 좋은 연구가 될 수 있겠다는 생각이 들었습니다. 좋은 발표 감사합니다.
기존 vit와는 다르게 swin transformer는 레이어마다 다른 해상도를 갖는 feature map을 사용합니다. 이는 classification 뿐 아니라 detection과 segmentation에서도 활용될 수 있도록 하기 위함입니다. 뿐만 아니라 계산복잡도까지 낮추는 효과가 있습니다. 그 밖에 시도한 다양한 방법론이 있었습니다. Self attention도 w-msa와 shifted w-msa로 나뉘는데, sw-msa는 local window 간 연산을 통해 기존 윈도우에서 고려하지 못하는 관계를 보완하는 역할을 수행합니다. 또한 relative position bias는 기존 vit보다 구조적으로 inductive bias를 추가하는 것처럼 보였습니다. ViT와 달리 ImageNet 등의 middle size 데이터에서도 좋은 성능을 보인 것은 이 때문이 아닌가 싶습니다. 별개로 빠르게 발전하는 vit계열의 모델은 엔지니어링 속도 싸움이라는 느낌도 많이 받았습니다. 중간중간 보여주신 예시가 좋아서 이해가 쉬웠습니다. 좋은 발표 감사합니다.
금일 세미나는 ViT 방법론에 대해 다룬 “Swin Transformer : Hierarchical Vision Transformer using Shifted Windows” 연구를 중심으로 진행되었습니다. 본 연구는 기존의 ViT 모델들이 갖는 한계점에 대응해서 나온 모델입니다. 기존 방법론들은 visionary 데이터에 그대로 Transformer 구조를 적용하며, image 데이터의 고유한 특징을 반영한 모델이라고 보기는 어려웠습니다. 본 모델은 이미지의 특성들을 반영해 학습할 수 있도록 하고자 고안되었습니다. 이미지 데이터는 본질적으로 픽셀 수로 반영되는 해상도와 이미지 내 물체의 크기 등의 특징을 갖고 있습니다. 이미지 데이터의 크기도 다르고, 그 안에서 주요한 정보를 표현하는 객체(entity)의 크기도 다양한 것 입니다. 이미지 데이터에서 이처럼 다양한 크기의 데이터를 제대로 인식하고 표현학습하기 위해서 본 모델은 다양한 size의 local window를 적용할 것을 제안합니다. 이처럼 window를 설정해 local한 데이터들의 특징을 학습하도록 하고, window 내에서의 attention(W-MSA)과 window 간의 attention(SW-MSA)를 적용합니다. 결론적으로, 기존의 ViT 보다 적은 연산 cost를 가지면서도 높은 성능을 보이는 것을 확인할 수 있었습니다. 인상적이었던 것은 해당 모델의 구조가 classification 뿐만 아니라, object detection의 backbone으로도 좋은 역할을 한다는 점입니다. Object detection 분야에서 ViT를 활용한 다양한 연구들이 계속 되는 것 같습니다. 아무래도 관계 정보를 Embedding하는 데 능숙한 attention의 역할을 십분 활용하기 위함일 것으로 보입니다. 더욱이 Swin 모델이 갖는 local 한 window를 얹는 다면 더욱 효과적일 것 입니다. 발표 전반에 걸쳐서 직접 도식화한 블록들로 연산 과정을 시각화해주셔서 쉽게 이해를 할 수 있었습니다. 예시 또한 마찬가지 였습니다. 개인적으로 object detection 분야에도 관심을 갖고 있는 데, 발표자님의 좋은 발표 덕분에 짧은 시간 동안 좋은 인사이트를 얻게된 것 같아 댓글로나마 감사의 말씀을 전하고 싶습니다. 좋은 발표 감사합니다!
이번 세미나에서는 ViT 중에서 여러 ssl 방법론의 기반이 되는 Swin Transformer에 대해 소개해주셨습니다. 기존에 ViT의 경우 transformer 구조가 이미지를 '이해'하는 데에 충분한 능력이 있음을 입증하였는데, swin transformer의 경우 relative position embedding과 더불어 patch 단위의 hierarchical한 attention module을 사용함으로써 조금 더 이미지 task에 맞는 inductive bias를 부여한 모델입니다. ViT의 경우 patch 전체에 대한 global attention을 활용하게 되면서 연산량이 많아지는 것 뿐만 아니라 필연적으로 필요하지 않은 noise를 갖게 될 수 있는데 swin transformer의 경우 local한 patch 단위의 attention 연산을 수행함으로써 연산 효율은 물론 이미지에 대해 좀 더 나은 representation을 추출할 수 있다는 점에서 굉장히 높은 contribution을 갖습니다. 사실 본 논문의 경우 가장 흥미로운 점은 window 간 관계 또한 연산에 포함시키기 위해 shift를 활용하는 점인데, 이런 생각이 결과론적으로는 간단할 수 있지만 생각해내 구현을 했다는 점이고, 특히 코드 단에서 그 구현이 굉장히 간단하게 되어있다는 점입니다. 많이 배운 세미나였고, 앞으로도 비전 분야에 있어서 좋은 발표 많이 기대하겠습니다.
이번 세미나는 Vision 분야에 Transformer를 접목한 Swin Transformer를 주제로 진행되었습니다. 최근 vision분야에 transformer를 접목한 연구가 굉장히 많이 진행되고 있으며, 좋은 성과를 보이고 있는 것으로 보입니다. Swin Transformer는 locality 추가하기 위해 local window를 사용하였습니다. Swin Transformer는 두가지의 self-attention을 제안하였습니다. W-MSA는 local window 안에서 self attention을 진행하는 방법으로 relative position bias을 attention value에 더함으로써 상대적 위치정보가 반영이 되도록 하였습니다. SW-MSA는 local window간의 self-attention을 진행하는 방법으로 local window에 대해서 Cyclic shift를 하고 인접한 위치가 아닌 부분에 대해서는 masking을 적용한 후, self attention을 진행합니다. vision 분야에 transformer가 접목되면서 vision의 특성을 반영하는 다양한 방법론들이 등장하고 있는 것 같습니다. 다음에는 어떤 새로운 방법론이 등장할지 기대가 됩니다. 좋은 발표 감사합니다.
금일 세미나 시간에는 Transformer를 NLP가 아닌 Vision분야에 적용한 Vit연구로 Swin Transformer : Hierarchical Vision Transformer using Shifted Windows논문을 주제로 다루어 보았습니다. NLP와 달리 ViT에서는 이미지를 위한 특성이 존재하지 않은 단점과 token의 수에 따라 연산량이 증가하는 한계점이 존재합니다. Swin Transformer에서는 이러한 이미지를 16by16의 단어로 적용한 기존 연구에서 나아가 해상도(resolution)과 물체의 크기(scale)을 특성으로 반영하기 위한 Local Window를 적용하였습니다. 이러한 과정은 기존 Vit 대비 연산량 측면에서도 더 적은 complexity로 처리가 가능하게 됩니다. 제안하는 모델의 구조가 다소 복잡하였지만, 과거 CS231의 강의 슬라이드에 준하는 디테일로 발표자가 준비한 모델의 아키텍쳐와 예시를 통해서 쉽게 이해할 수 있었습니다. 특히, Swin TransformerBlock에 대한 연산 과정의 예시를 하나하나 장표로 tracking하는 장표는 해당 연산을 누구나 충분히 이해할 수 있을 것 같습니다. 개인적으로는 가독성 높은 장표로 인해서 집중력있게 몰입해서 들은 세미나였습니다. 좋은 발표자료를 준비한 세미나 발표자님께 감사의 인사 전합니다.