[Paper Review] End-to-End Object Detection with Transformers

Paper Review
작성자
Kyoosung So
작성일
2021-07-16 00:40
조회
4324
1. Topic
Transformer 구조를 vision task에 활용하는 vision transformer 모델 중 하나로서, NMS 등 이미지에 대한 geometric prior 없이 end-to-end로 학습 가능한 direct set prediction 기반의 object detection 방법론을 제안합니다.

2. Overview
일반적인 detection model의 경우 two-stage detector와 같이 region proposal network가 있거나, 없더라도 NMS(Non-maximum Suppression) 등 geometric prior를 기반으로 하기 때문에 완벽한 end-to-end가 아니며 구조 자체가 복잡하다는 특성을 갖습니다. 이에 반해 본 논문에서 제안하는 모델 DETR(DEtection with TRansformers)은 object detection을 중복이 없는 일대일 매칭의 set-prediction 관점으로 새롭게 접근하며, 이러한 구조에 알맞은 transformer를 활용함으로써 굉장히 간결한 파이프라인을 구축하였습니다.

간결한 구조임에도 faster-rcnn을 상회하는 성능을 달성하였고, detection task에 있어서도 vision transformer 구조가 효과가 있음을 증명한 논문이라고 할 수 있습니다.

3. 참고 논문
[DETR] https://arxiv.org/abs/2005.12872

4. 발표 자료: 첨부파일

5. 발표 영상:  [업로드 예정]
전체 19

  • 2021-08-15 17:42

    금일 세미나에서는 transformer 를 이용한 객체탐지를 주제로 합니다. 본 논문에서느는 end to end 로 모델을 학습시키며, loss 정의를 기존 객체탐지 처럼 class loss, 박스 좌표 loss 를 설정합니다. 물론 transformer 에 이미지의 어느 부분을 위주로 봐야할지를 결국 학습해야하는 inductive bias 자체가 낮은 상태에서 학습시키는 과정으로 생각을 할 수 있고, 예시에서 보물찾기를 설명한것 처럼, 알아서 하는 느낌을 받았습니다. 개인적으로 최근 VIT 를 보면서 객체탐지에 더 특화되지 않을 까 생각했는데, 역시 그 이유를 명쾌하게 이해할 수 있는 시간이였습니다 .감사합니다.


  • 2021-07-15 16:06

    이번 세미나는 End-to-End Object Detection with Transformers에 대해서 발표해 주셨습니다. 이 연구논문의 특징은 Transformer을 이용하여 Object detection에 적용했다는 것 입니다. 3차원 이미지 (N, 3, H, W)를 CNN backbone 네트워크를 활용해 feature map (N, D, H, W)을 만들게 됩니다, 이 3차원 tensor를 작은 사이즈로 만들기 위해 1D-conv를 수행하게 되며, (N, D, h, w)을 reshape시킴으로써 (N, h*w, D)의 tensor를 만들게 됩니다. 여기서 h*w를 vision transformer에서는 sequence axis로 가정하였고 pixel에 대한 attention이 이뤄지는것을 확인하였습니다. L match는 클래스 예측 loss + 박스좌표 예측 loss를 고려하였고, Object query는 learnable vector를 입력을 받아 Transformer decoder에 생성된 output에 대해서 class box, no_object에 대한 예측이 진행되었습니다. 예측과정에서는 중복이 되지 않는 일대일 매칭 수행하여 loss를 산출하였습니다. 추가적으로, Panopic segmenation은 semantic 과 instance segmentation의 목적을 가지고 있는 task였으며, 제안모델을 응용하여 높은 성능을 거두는 것을 확인하였습니다. 좋은 발표 감사합니다.


  • 2021-07-15 16:54

    오늘 세미나 주제는 End to end Object Detection with Transformers입니다. 최근 자연어처리 분야에서 강력한 성능을 보이는 Transformer를 비전분야에 적용한 VIT연구가 활발히 진행되고 있는데, 그 중, Detection with Transformers, DETR 모델은 Transformer와 Bipartite-matching을 기반으로 detection을 수행하는 구조를 제안합니다. 이 모델은 end-to-end로 접근이 가능하며 object detection을 direct set prediction 문제로 풀어내어 RPN이나 NMS를 수행하는 과정 없이도 간결한 파이프라인으로 좋은 성능을 보입니다. 본 모델의 Encoder에는 이미지를 transformer 입력 형태로 변환하야 2d positional encoding을 더해 입력된 픽셀 간의 관계를 학습합니다. 그리고 Decoder에서는 object의 위치 및 class를 출력하게 되는데, object query라는 set가 input으로 들어가서 이미지의 어느 부분을 주목해야할 지, 그리고 spatial하게 물체의 위치를 최적으로 매칭할 수 있도록 특성을 학습합니다. 이 모델은 Faster-RCNN에 비해 직접적이고 간결하게 높은 성능을 보일 수 있다는 점에서 의의가 있습니다. 여기에 더해, Panoptic Segmentation task를 수행하기 위해 DETR을 이용하는 방법을 소개해 주셨는데, decoder output과 encoder output 간의 attention map을 바탕으로 feature map 과의 연산을 통해 masked image를 구해 segmentation에 사용을 하였습니다. 정성적, 정량적 평가 모두에서 segmentation이 꽤 잘 수행되어 신기했고, DETR 모델 자체가 detection과 segmentation에 대해서 이미지 특성을 잘 학습하고 있다고 생각했습니다. 좋은 발표 감사합니다.


  • 2021-07-16 01:14

    transformer를 사용하여 detection을 수행하는 기법인 detr에 대해 소개해주셨습니다. 구조는 굉장히 직관적인데, 일반적인 cnn 구조의 모델을 사용하여 이미지로부터 feature map을 추출한 후 multihead self-attention을 적용합니다. 그 후 channel 방향으로 픽셀 별 시퀀스를 구성합니다. 중간중간 구현 코드를 함께 첨부해주셔서 쉽게 이해할 수 있었습니다. 디코딩 과정에서는 인코딩된 feature를 바탕으로 object의 위치와 클래스를 예측합니다. 디코더의 입력으로 positional embedding만 랜덤하게 초기화하여 query로 사용하는 부분에 대해서는 저자가 처음 아이디어를 고안한 과정이 매우 궁금해졌습니다. 이미 존재하는 구조를 원하는 task에 맞추는 능력이 대단한 것 같습니다. Loss를 계산할 때에는 query slot이 no object인 상황과 이미지 내 객체의 위치를 잘 탐지한 경우에 대해 hungarian algorithm으로 계산합니다. AP-S, AP-L의 성능과 관련하여 faster RCNN과 차이나 나는 이유 중에서는 self attention과 cnn의 inductive bias 간 차이가 하나의 이유가 되지 않을까 생각하였습니다. 또한 물체를 구분하는 thing과 stuff의 기준은 상황에 따라 조금씩 달라질 것 같은데, segmentation task에서 명확한 기준을 세울 필요가 있지 않을까라는 생각도 하였습니다. 발표 잘 들었습니다.


  • 2021-08-15 22:20

    금일 세미나는 오랜만에 object detection과 관련된 논문을 다루었습니다. Transformer 구조는 어딜가도 좋은 성능을 보인다는 생각을 자주했는데 역시나 object detection 모델에도 적용되었을 때 좋은 성능을 보였습니다. 예시를 들어가면서 설명해주셔서 모델의 전반적인 흐름과 아이디어에 대해 직관적으로 잘 이해할 수 있었습니다. 더욱 간단한 구조임에도 불구하고 Fast RCNN과 비교해 부분적으로 좋은 성능을 달성했다는 것은 충분한 contribution이라고 생각했습니다. 다만 작은 물체에 대해 성능이 큰 물체와 비교하여 떨어지는 부분에 대해서 transformer 모델이 가지는 구조적인 특징이 아닌가에 대한 생각을 해보았습니다. Fast RCNN에 대해서도 잊어가고 있던 시점에 다시 object detection 방법론을 상기시킬 수 있어 유익한 시간이었습니다. 좋은 발표 감사드립니다.


  • 2021-07-16 21:55

    금일 세미나는 Transformer 구조를 Vision Task에 활용하는 방법을 다룬 End-to-End Object Detection with Transformers 논문을 소개해 주셨습니다. 해당 논문에서는 일반적인 Detection Model과는 다르게 NMS(Non-maximum Suppression)이 없는 End-to-End 학습이 가능한 Transformer를 제시합니다. 해당 논문의 강점은 Object Detection을 Direct set-prediction이라는 새로운 관점으로 접근했다는 것입니다. 뿐만 아니라 굉장히 간결한 pipeline을 구축함으로써 확정성이 높고 재현가능성이 높다는 점에서 Transformer가 vision 분야에서 활용이 가능하다는 것을 확인할 수 있습니다. Transformer가 2018년 개발된 이후 이미지, 음성, VIsion등 다양한 분야에 활용되는 것을 보면, 해당 아키텍처가 많은 가능성을 갖고 있다는 것을 느낍니다. 또한 특정 분야에 국한되지 않고 Anomaly Detection, Graph Node Classification 등에도 활용될 수 있는 가능성이 높다고 생각됩니다. 매우 자세한 예시가 함께 포함되어 있어 논문의 내용을 정확하게 이해하는데 도움이 되었으며, 이전 방법론들과 비교를 통해 해당 논문의 강점을 쉽게 파악할 수 있는 세미나였습니다.


  • 2021-07-18 00:53

    이번 세미나에서는 DETR : End to end Object Detection with Transformers이라는 논문을 다뤘습니다. 해당 방법론은 자연어처리 분야에서 강력한 성능을 보이는 Transformer와 이분 매칭(Bipartite-matching) 기반의 새로운 detection구조를 제안합니다. 이때 Object detection을 directset-prediction의 문제로 접근하며, end-to-end모델로서 geometric prior가 필요하지 않도록 모델을 설계하여, RPN이나 NMS 같은 hand-crafted 엔지니어링이 필요 없도록 하였습니다. 그리고 구조적으로 간결해졌음에도 불구하고 다른 task로 확장 가능성이 높고,어텐션 메커니즘에 의해 전역적 정보를 이용함에 따라 큰 물체 탐지에 대해서 FasterR-CNN에 비해 더 높은 성능을 보여줄 수 있었습니다. 모델 아키텍쳐 중에 신기했던 부분은 이미지의 픽셀별로 self-attention을 통해 별도의 처리 없이 관계를 학습하고, 겹친 객체들 마져 구분해낼 수 있는 것이 정말 놀라웠습니다. 뿐만 아니라 Object query라는 개념을 도입하여, 여기에 Enc-dec attention과 Self-attention을 수행하여 decoding하는 과정을 보물 사냥꾼에 비유해 주신 것이 인상 깊었습니다. 좋은 발표 감사합니다!


  • 2021-07-18 17:19

    Vision 분야에 대해 개인적으로 아직까지도 많이 낯설다는 느낌을 받지만, ViT논문을 처음 접했을 때 왜 해당 Model로 Object Detection Task를 수행하지 않았을까 하는 의문을 가졌던 기억이 있습니다. 개인적으로는 금일 세미나를 통해 해당 의문을 어느 정도 해소할 수 있어 좋았습니다. 소개해 주신 DETR Model에서는 ViT와 다르게 Encoder 부분에서 Image Patch를 입력으로 사용하지 않고 Backbone CNN을 사용하여 Feature를 추출한 뒤 2D Positional Encoding과 함께 입력으로 사용합니다. 해당 구조를 사용하여 Object의 위치 및 다른 Object와의 관계를 고려한 Representation을 얻습니다. 이어 Decoder에서는 Object Query를 입력으로 사용하여 Object Query마다 Class의 유무와 좌표를 예측하는 Task를 수행합니다. 제가 정확하게 이해한 것인지는 모르겠으나, 기존 Vit의 경우 Image Patch를 Token으로 간주하여 정해진 Patch에 관한 예측만을 수행할 수 있었다면, DETR에서는 Image를 Feature로 변환하여 정보를 추출하고 해당 정보를 활용하여 Object Slot에 관한 예측 문제를 수행하여 Input Image의 관점에서 위치 또는 Class가 가변적인 Object를 예측할 수 있었다고 생각합니다. 최근 Vision 분야에서 Transformer가 널리 사용되고 있으며, 앞으로도 많은 발전이 있을 것이라 생각하는데, 그에 관하여 좋은 발표를 들을 수 있어 유익했던 시간이었습니다. 좋은 발표를 진행해 주시어 감사드립니다.


  • 2021-07-19 09:52

    CNN과 Transformer의 hybrid 형태로 object detection을 하는 재미있는 연구였습니다. ResNet을 사용하여 이미지의 feature map을 구한 다음, (H, W, C)의 차원을 (H * W, C)로 unrolling 합니다. 이 과정을 통해 feature map은 Transformer의 input으로 사용될 수 있으며 Transformer 내부에서 각 채널별로 global하게 attention이 진행 됩니다. 이후 Encoder는 기존과 동일하게 연산이 진행되며 Decoder에서 bbox와 그에 속하는 class를 맞추기 위한 queries 를 input으로 사용합니다. random vector를 넣고 Hungarian algorithm으로 loss를 계산하게 되는데 굉장히 deep learning 스러운 접근이라는 생각이 들었습니다. 또한 DETR은 상기 query vector의 개수, 즉 예측할 bbox의 개수를 정해주고 시작해야 합니다. 개인적으로는 이 부분이 구조의 큰 단점이라고 생각했는데, 논문에서 굉장히 아무 것도 아닌 느낌으로 서술하고 있어서 단점이 아닌건지 모른척 하는건지 궁금했습니다.


  • 2021-08-16 18:51

    이번 세미나는 transformer의 구조를 object detection에 적용한 모델에 대한 세미나입니다. 구체적으로 transformer의 인코더 부분은 feature map의 pixel과 pixel간의 관계를 학습할 수 있고, locality중심의 CNN과 다르게 global 한 정보를 학습함으로써 이미지를 이해하고 object detection task에 맞게 학습됨으로써 object 의 위치와 이미지와의 관계까지 학습할 수 있는 모델입니다. 또한 해당 모델은 object detection을 direct set-prediction의 관점에서 새롭게 접근했다는 의의가 있습니다. 최근들어 비전 분야에 transformer가 많이 도입되는 것을 볼 수 있는데, 그 흐름을 따라갈 수 있었던 좋은 발표 감사합니다.


  • 2021-07-23 11:41

    금일 세미나는 "End-to-End Object Detection with Transformers"라는 주제로 진행되었습니다. 발표에서는 vision transformer 모델로 이미지에 대한 geometric prior 없이 end-to-end로 학습 가능한 direct set prediction 기반의 object detection 방법론이 소개되었습니다. 개인적으로는 최근 vision transformer 모델이 매우 흥미롭다고 생각했기 떄문에 이를 기반으로 발전된 object detection 모델은 어떤 구조일지 궁금했습니다. 일반적인 object detection model은 대게 region proposal network 또는 Non-maximum Suppression과 같은 geometric prior를 기반으로 하기 때문에 완벽한 end-to-end라고 보기 어려운데, 금일 발표된 DETR은 object detection을 set prediction 관점으로 접근하여 transformer를 활용함으로써 간결한 구조로 좋은 성능을 도출하였습니다. 본 방법론의 등장으로 인해 object detection에서도 vision transformer가 좋은 결과를 도출한다는 것을 입증하였는데, 이를 보며 image anomaly detection에서도 vision transformer가 좋은 성능을 도출할 수 있지 않을까하는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2021-07-24 20:55

    근래 연구실 세미나에서 Transformer의 Variant에 대해서 많이 다루고 있는데, 그 중 Object Detection에 Transformer를 활용하는 방식을 안내하는 논문을 소개해주셨습니다. Transformer를 활용함으로써 얻는 이점은, Region Proposal과 같은 과정이 포함되어 있는 2-stage로 진행되지 않고 End-to-End로 학습이 진행된다는 점, 그리고 Self-attention을 통해 얻을 수 있는 이점을 그대로 가져올 수 있다는 점이 있으며, Self-Attention을 통해 이미지의 어느 부분을 위주로 Encoding할 지를 파악하고 Decoding 시 최적의 일대일 매칭을 돕습니다. 또한 Self-Attention의 Global Information을 획득할 수 있다는 점에서 Faster R-CNN보다 더 큰 물체에 대한 높은 정확도를 보이게 됩니다. Faster R-CNN에 mask head를 더해 Mask R-CNN을 구축했듯이, DETR decoder output에 마스크를 추가하여 Segmentation task까지 가능하다는 점에서 Vision에서 Transformer가 활약할 수 있는 부분은 아직 무궁무진한 것 같으며 자연어 이외의 Task에 Transformer가 어떻게 운용되는지 더 많은 논문을 읽어봐야겠습니다. 좋은 자료로 발표 진행해주신 점 감사합니다.


  • 2021-07-27 04:08

    오늘 세미나는 End-to-End Object Detection with Transformers를 주제로 진행되었습니다. 다양한 task에서 좋은 성능을 내는 Transformer는 정말 엄청난 모델인것 같습니다. 어떤 domain의 데이터든 Transformer의 인풋으로 만들어주기 위해서는 position에 대한 정보가 필요합니다. ViT 모델은 인풋을 Patch단위로 분리한 후 순서를 매겨 인풋으로 넣어주는 과정을 거칩니다. 오늘 소개해주신 DETR은 이미지를 patch로 구분하지 않고, cnn을 통과하여 얻은 feature map을 1*1 conv에 태워 일정 길이의 시퀀스로 변환합니다. 이 과정이 이미지의 특징을 더 잘 구분할 수 있게 해준 중요한 포인트라 생각하였습니다. Decoder의 prediction 과정이 기억에 남는데, 이미지는 Auto regressive하게 값을 찾아낼 이유가 없기 때문에 Set prediction을 수행했고 각 prediction head를 통해 class box를 찾아내는 것을 알 수 있었습니다. 또한 object query라는 개념 재미있었는데, 기존 모델의 아키텍쳐를 원하는 task에 접목하는 능력이 대단한 것 같습니다. 발표 감사합니다


  • 2021-07-29 01:41

    오늘 세미나는 transformer를 활용한 end-to-end object detection 방법론인 DETR(Detection with transformers)에 대한 내용을 진행되었습니다. standard한 transtormer를 그대로 활용한다는 점에서 구현에서의 장점을 가집니다. input image를 CNN에 태워 feature map을 얻고, 이를 d_model 차원의 채널로 넣어줍니다. decoder는 object의 위치, class를 예측하는 역할을 합니다. 여기서 특이한 점은 decoder의 query를 random initialize한 splot으로 표현하기 때문에 self-attention은 큰 의미가 없다는 점입니다. 그보다는 encoder-decoder attention이 input image의 어느 부분이 중요한지를 학습하기 때문에 object detection에서의 핵심 역할을 합니다. 이제 각 slot마다의 decoder output을 FFN을 태워 class와 box를 동시에 예측하게 합니다. 동시에 예측해야 하기 때문에 class 예측 cost와 박스 좌표 예측 cost를 최소화 하기 위해 헝가리안 메소드를 활용하여 최소 match를 찾아 그 loss를 최소화하도록 모델을 학습합니다. 또한 L2 loss로 IoU를 개선하기 힘들다는 단점을 개선하기 위해 g-IoU라는 새로운 measure를 도입하여 성능을 개선했습니다. DETR은 특히 큰 물체에 대해 좋은 성능을 보이는 것으로 보아 말씀하신 것처럼 attention이 이미지에서도 global 정보를 잘 반영하는 것 같습니다.


  • 2021-07-30 17:08

    오늘 세미나에서 발표해주신 논문은 “End-to-End Object Detection for Transformer, ECCV, 2020”이라는 논문입니다. 본 논문에서 제안하는 방법론은 DETR(Detection for Transformer)이고 해당 방법은 ViT가 나오기 이전에 연구되었던 방법이지만 ViT와 유사하게 이미지를 patch(or token)으로 나누어 transformer에 적용하였습니다. Patch 단위로 self attention을 통해 global하게 정보를 학습하는 점에서 기존 CNN 방법보다 더 넓은 정보를 학습할 수 있다고 생각이 되었습니다. 또한 patch 별로 class와 bbox를 예측하는 점에서도 detection task를 수행하기에 적합하다고 생각이 되었습니다. 중간에 보물을 찾으로 다니는 treasure hunter를 예시로 들어주어서 이해가기가 훨신 수월 했습니다. 논문을 보면서 들었던 생각은 입력 데이터 특성상 사전에 정해놓은 patch size 때문에 물체에 대한 scale을 고려하기 힘들지 않을까라는 생각이 들었는데 올해 3월에 나온 swin transformer의 방법을 활용하면 좋을 것 같다는 생각이 들었스빈다. 이미지 분야에서 retreival과 detection task에 대해 많이 공부하지는 않지만 항상 세미나를 통해 간접적으로 들을 수 있어서 도움이 많이 되고 있습니다. 앞으로도 좋은 발표 기대하겠습니다. 오늘도 좋은 시간 만들어 주셔서 감사합니다.


  • 2021-08-02 14:18

    금일 세미나시간에는 Object Detection을 주제로 Transformer를 활용한 End-to-End Object Detection with Transformers논문을 주제로 다루어 보았습니다. Transformer는 최근 자연어처리분야에서이 성공에 이어서 그래프 혹은 자연어처리, 그리고 음성처리와 같은 다른 분야에서도 주목할만한 연구성과를 보여주고 있습니다. 해당 논문에서 제안하는 DETR 모델은 Transformer와 Bipartite-matching을 기반으로 detection을 수행하고자 하였습니다. 오랜만에 접하는 Detection관련 연구이기에 다소 생소할수도 있었지만,. 발표자께서 친절하게 백그라운드 지식을 잘 설명해주어 무리없이 따라갈 수 있었습니다. 특히 Object query는 learnable vector를 입력을 받아 Transformer decoder에 생성된 output에 대해서 class box, no_object에 대한 예측할 수 있어 매우 직관적인 학습이 가능하였습니다. 열심히 준비해준 세미나 자료덕분에 좋은 정보 알아갑니다. 감사드립니다.


  • 2021-08-03 01:57

    금일 세미나는 DETR(DEtection with TRansformers) 모델을 제안한 “End-to-End Object Detection with Transformers” 연구를 중심으로 진행됐습니다. Transformer를 비전 분야에 적용하는 주목받는 방법론을 소개해주셔서 더욱 관심을 가질 수 있었습니다. 발표에서 언급해주신 것처럼, Object detcection task 자체가 갖는 특수성 때문에, stage를 나눠 다소 학습과정이 복잡하게 구성되는 점은 공부하는 입장에서, 또는 활용하는 입장에서 다소 애로사항으로 남았던 부분이었습니다. End-to-End 관점에서도 다소 불편하게 느껴졌던 점도 사실입니다. 본 연구에선 이러한 점을 개선해 Transformer를 활용한 Direct-set prediction으로 간단하게 대체해낸 점이 인상깊었습니다. 하지만, 역시나 쉬울 수 만은 없는 법. 헝가리안 알고리즘과 이분 매칭이라는 개념을 활용해 Object detection task 특수성에 맞는 Loss를 디자인합니다. 역시나 task specific하게 레이블과 box 좌표에 대한 고려가 있어야 하고, 이를 하나의 Loss로 압축시켜줍니다. 더불어 이 과정에서 Transformer가 갖는 좌표 및 포지션 인코딩의 절대성을 보완하기 위해, Generalized IOU(GIoU)를 적용한 것도 인상적이었습니다. 개인적으로 참 인상깊으면서도 대단하다고 생각한 연구였습니다. Transformer는 attention을 통해 전역적인 관계를 학습하는 데 매우 효과적인 구조입니다. 그리고 이를 Object detection에 적용하는 것은 매우 효과적인 방법일 것입니다. 이미지에 존재하는 여러개의 object간 관계를 파악하고 이를 분류해내기 위해선, 전역적인 관계를 파악하는 것이 중요할 것입니다. 이를 적용하기 위해, 헝가리안 알고리즘, 이분매칭 그리고 Loss 디자인까지 모두 Transformer 구조를 적용함에 따라 달라져야할 다양한 디테일을 보완했습니다. 일종의 도전정신처럼 느껴지기도 하면서, 결국엔 결과를 만들어내기 위해 얼마나 많은 시도와 노력을 해왔을 지 조금이나마 느낄 수 있었습니다. 요 근래 쏟아지듯 ViT 관련 연구들이 나오는 것 같은데, 좋은 설명과 발표로 이해를 도와주셔서 감사드립니다. 늘 그래오셨듯, 앞으로도 좋은 발표 기대하겠습니다. 좋은 발표 감사합니다.


  • 2021-08-04 02:39

    이번 세미나는 Objective Detection에 Transformer가 활용된 DETR을 주제로 진행되었습니다. 본 논문은 Transformer와 Biparitie-matching 기반의 새로운 detection 구조를 제안하였습니다. Input image를 backbone CNN과 1x1 convolution layer를 통해 토큰 임베딩 차원으로 축소하고 flatten하여 시퀀스를 얻습니다. 그 후 positional encoding을 추가해주기 위해 2D fixed sine positional encodint을 사용하였습니다. Decoder를 통해 이미지 내에 존재하는 object의 클래스 및 위치를 출력하는 것을 목표로 하였습니다. permutation invariant한 transformer의 특성 때문에 입력값이 서로 달라야 서로 다른 출력값을 뱉어 낼 수 있으므로, 학습이 가능한 positional encoding을 랜덤하게 초기화하여 입력값으로 사용하였습니다. 이미지의 어느 부분을 위주로 봐야할 지, 어떻게 분배하여 최적의 일대일 매칭을 수행할 수 있을지 를 학습하게 되는데 이 예시를 보물 찾기를 들어 설명한 점이 인상 깊었고 이해가 잘되었습니다. 헝가리안 알고리즘을 활용한 이분 매칭을 통해서 loss를 정의하고 클래스 예측 cost + 박스 좌표 예측 cost를 loss로 설정하였습니다. 추가적으로 GIoU Loss를 사용하였습니다. Faster-RCNN 보다 좋은 성능을 보이나 작은 물체는 성능이 더 낮고 큰 물체에 대해서는 높은 성능을 보였는데 attention이 global하게 보기 때문에 큰 물체에 더 좋은 성능을 보이나 resnet 자체에서 작은 부분에 대한 정보 손실로 인해 작은 물체는 성능이 더 낮은 것으로 보였습니다. 자세한 예시와 그림을 통해 이해가 잘 되는 발표였던 것 같습니다. 좋은 발표 감사합니다.


  • 2021-08-09 13:52

    금일 세미나는 transformer 구조를 object detection에 적용한 DETR 모델에 대한 소개로 진행되었습니다. Object detection은 NMS와 같이 복잡한 후처리 과정이 항상 수반되는데, DETR 모델은 1:1 매칭의 set prediction으로 object을 탐지해냄으로써 후처리 과정을 간소화합니다. 처음이 논문을 읽었을 때, object query가 의미하는 바를 명확히 이해하지 못했었는데, 쉬운 예시를 들어주셔서 이 부분에 대해 이해할 수 있었습니다. 또한 최근 vision transformer가 이미지 관련 task에 많이 적용되고 있는데, local하게 이미지를 보는 것 뿐만 아니라, attention mechanism을 통해 보다 global하게 이미지를 보는 것도 괜찮은 성능을 보임을 알 수 있었습니다. DETR을 통해 ViT모델을 object detection task에도 활용할 수 있음을 확인할 수 있었던 유익한 시간이었습니다. 좋은 발표 감사합니다.


전체 501
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10326
관리자 2020.03.12 0 10326
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8940
관리자 2020.03.12 0 8940
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10049
관리자 2020.03.12 0 10049
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (7)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 87
Sunghun Lim 2025.04.24 0 87
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (8)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 82
Suyeon Shin 2025.04.21 0 82
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (11)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 139
Woongchan Nam 2025.04.16 0 139
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (13)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 263
Kiyoon Jeong 2025.04.16 0 263
494
[Paper Review] Reasoning over Time Series with LLMs (14)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 307
Hyeongwon Kang 2025.04.09 0 307
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 302
Jaehyuk Heo 2025.04.02 0 302
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 294
Jaehee Kim 2025.04.02 0 294
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 266
Jungho Lee 2025.04.02 0 266
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 251
Hankyeol Kim 2025.03.25 0 251
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 362
Sieon Park 2025.03.19 0 362

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호