[Paper Review] VISION TRANSFORMERS NEED REGISTERS

Paper Review
작성자
Kiyoon Jeong
작성일
2024-10-30 19:42
조회
2422
발표자: 고려대학교 산업경영공학과 석사과정 정기윤

Title: VISION TRANSFORMERS NEED REGISTERS (Darcet, Timoth'ee et al., ICLR 2024, # of citation158)

Overview

- Model이 inference 단계에서 자연적으로 low-informative area의 patch 중 일부를Artifact로 재활용

- Artifact는 해당 영역의 local information을 상실, global information을 저장하게 되며CLS token embedding 계산 등의 internal computation에 활용됨

- Patch 중 일부가 아닌, 추가로 입력되는 “Register Token”이 Artifact의 역할을 대신 수행하게 하는 방법을 제안

- Vision Transformer 기반의 다양한 방법론에 적용 시, 다양한 Task에서 기존의 성능을 유지하면서 더 정확한 feature map과 attention map이 생성됨을 확인

발표영상:
전체 14

  • 2024-10-31 13:07

    이번 세미나에서는 ICLR 2024에 발표되어 벌써 인용수가 158회에 달하는 “Vision Transformers Need Registers” 논문에 대해 발표해주셨습니다. 해당 논문에서는 Vision Transformer의 내부 동작 중 일부 Low-informative 영역을 Artifact로 활용하고 이로 인해 발생하는 Local 정보의 손실과 Global 정보의 비효율적 관리 문제를 다루고 있습니다. 특히, 이러한 문제를 해결하기 위해 Register Token이라는 새로운 구성요소를 도입하여 Vision Transformer의 기존 구조를 개선하는 방법을 제안하였습니다. Register Token은 모델 학습의 입력 단계에서 추가되며, Artifact가 수행했던 역할을 대체하게 됩니다. 이를 통해, Vision Transformer가 다양한 Task에서 보다 정확한 Feature Map과 Attention Map을 생성하도록 하면서도 기존의 성능을 유지할 수 있게 해준다는 점이 인상깊었습니다. 다만, Image-level Task에서 기존의 Artifact를 사용한 방법론보다 다소 성능이 낮아졌는데 이는 Pixel-level Task와 Attention Map을 활용한 다양한 Downstream Task에서 성능이 향상되었다는 점에서 의의가 있을 것이라 생각했습니다. 이번 발표를 통해 Vision Transformer의 구조적 한계를 극복하고 더욱 섬세하고 효율적인 모델 설계가 가능하다는 점을 배울 수 있었습니다. 이러한 접근 방식은 향후 ViT를 활용한 다른 연구에도 응용될 수 있는 방법론으로 매우 활용성이 높을 것이라 기대됩니다. 흥미로운 주제로 좋은 발표 준비해주셔서 감사합니다.


  • 2024-11-03 18:09

    이번 세미나는 기존 Vision Transformer(ViT) 모델이 Inference 시에 Artifact라고 불리는 일부 패치에 Global Information을 저장하는 것을 발견하고, 이를 Register Token을 통해 대체하여 더욱 정확한 Feature map과 Attention Map을 구성하는 방법론을 제안한 “Vision Transformers Need Registers”라는 논문에 대한 발표를 중심으로 진행되었습니다. 본 논문에서는 이 Artifact를 ViT의 모든 Layer를 통과한 Patch Embedding들 중 L2 Norm 값이 150을 넘어가는 패치로 정의하며, 이러한 Artifact는 주로 주변 인근 영역과 중복되는 특징을 가지고 있는 패치들에서 주로 발견됩니다. 이러한 Artifact는 CLS 토큰이 Global Information을 잘 반영하도록 연산에 관여합니다. 해당 논문은 결론적으로 이러한 Artifact의 역할을 대신 수행하기 위한 4개의Resister Token을 추가하며 최종 Output을 생성하는 과정에선 이 Resister Token을 제거해 Patch Embedding 정보를 충분히 활용하는 방법론을 제안합니다. 근래 다양한 딥러닝 분야에서 이러한 Attentention 연산 결과를 버리기 위한 일종의 쓰레기통 역할을 하는 토큰 혹은 패치 등이 존재함을 이야기하는 논문들이 많아지고 있는 것 같은데, 이러한 부분들을 잘 활용한다면 향후 다양한 연구에도 잘 적용시킬 수 있을 것 같다는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2024-11-04 14:09

    이번 발표에서는 ICLR 2024에서 발표된 “Vision Transformers Need Registers” 논문을 다루었습니다. 이 논문은 Vision Transformer(ViT) 모델의 구조적 문제를 해결하기 위해 Register Token이라는 새로운 구성요소를 제안합니다. 기존 ViT 모델은 Inference 단계에서 일부 Low-informative 영역을 Artifact로 활용해 Global 정보를 저장하는 방식으로 작동하지만, 이는 Local 정보를 충분히 반영하지 못하는 한계가 있습니다. 이를 해결하기 위해 저자들은 추가적인 Register Token을 도입하여 Artifact의 역할을 대신 수행하도록 설계했습니다. Register Token은 모델의 입력 단계에서 추가되며, 이를 통해 ViT가 다양한 Task에서 더 정확한 Feature Map과 Attention Map을 생성할 수 있도록 돕습니다. 또한, 이러한 구조적 개선으로 모델이 Local 정보를 잃지 않으면서도 Global 정보를 효율적으로 관리할 수 있게 됩니다. 실험 결과, ViT의 성능은 Pixel-level Task와 Attention Map 기반의 여러 Downstream Task에서 기존 대비 향상된 결과를 보였으며, Image-level Task에서의 약간의 성능 저하도 관찰되었으나, 이를 통해 Artifact의 불필요한 정보 중복 문제를 해결할 수 있었습니다. 특히 ViT의 구조적 한계를 보완하며 더 정교한 모델 설계 가능성을 보여준 점에서 의미가 깊다고 생각됩니다. 이러한 접근 방식은 ViT 기반 모델의 다양한 연구에 응용 가능성이 높고, 향후 ViT의 성능 개선에 중요한 아이디어를 제공할 수 있을 것 같습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-11-10 15:09

    금일 세미나는 트랜스포머 구조를 기반으로 하는 ViT의 attention 메커니즘을 분석하고, 한계점을 극복할 수 있는 register token의 개념을 제시한 “Vision Transformers Need Registers”을 중심으로 진행되었습니다. 해당 논문에서는 ViT 구조의 어텐션 분포를 산출해보면 cls 토큰의 attention의 상당 수가 의미적 정보를 가지고 있지 않은 배경의 패치로 분산됨을 관찰합니다. 이에 대해 해당 논문에서는 global 정보가 해당 패치에 저장되어 cls 토큰이 정보를 해당 패치에서 가져오고 있음을 다양한 실험을 통해 보이고 있습니다. 이는 patch level 태스크에서 악영향을 미칠 수 있다는 가정 하에 의미적 정보가 전혀 없는 register token을 입력에 추가하는 방법론을 제시합니다. 실제로 이를 통해 배경 패치에 대한 attn이 줄어들고, register token이 해당 역할을 가지고 있음을 확인할 수 있었습니다. NLP 분야에서도 이와 유사한 연구가 비슷한 시기에 발표되었는데, 결국 광범위하게 사용되는 트랜스포머 구조가 간단한 조작만으로도 개선될 수 있다는 점을 보인 좋은 연구들이라 생각합니다. 직관적으로 이해가 될 수 있는 발표를 구성해주셔서 감사합니다.


  • 2024-11-10 21:48

    이번 세미나에서는 "VISION TRANSFORMERS NEED REGISTERS"에 대해 소개해주셨습니다. 해당 연구에서는 ViT 모델에서 register 토큰을 추가하는 방법이 모델의 성능에 미치는 영향을 탐구합니다. 기존의 ViT는 이미지 데이터를 패치로 나누어 처리하는 구조로, 각 패치는 독립적으로 임베딩됩니다. 그러나 이러한 방식은 이미지 내 패치 간의 중요한 상호작용 정보가 손실되거나 충분히 반영되지 못하는 문제가 있습니다. 이에 따라 논문에서는 다양한 정보 유지 및 정보 손실 최소화라는 두 가지 중요 측면에 대한 register 활용 방향을 제안합니다. register 토큰을 추가하는 경우 ViT가 오히려 시각적 특성을 더 잘 보존하며, 영상 정보 상호작용을 효과적으로 처리한다는 분석 결과를 보여줍니다. 또한 이렇게 register 토큰을 추가하면 복잡한 객체 인식 혹은 분류 작업 등에서 매우 큰 성능 향상의 효과가 있으며, 이는 기존 트랜스포머 모델의 성능보다 우수하게 나타났습니다. 분석적 특성이 강한 논문이라 오히려 더 흥미롭게 들을 수 있었던 것 같습니다. 좋은 발표 감사드립니다.


  • 2024-11-12 14:43

    금일 세미나에서는 ViT에서의 Artifact라는 개념을 정립하고, Low-informative Area의 Patch를 Global Information 저장 창고로 사용했다는 것을 밝힌 'VISION TRANSFORMERS NEED REGISTERS'라는 논문에 대해서 소개해 주셨습니다. 해당 논문에서는 CLS Token을 기준으로 Attention Map을 시각화할 경우, Noise처럼 Activate되는 일부 Patch들이 사실은, Low-informative Area 중 Global Information을 저장하기 위한 역할임을 밝히며, 이를 해결하기 위해 추가적으로 Register Token을 두어 Artifact의 역할을 대신 수행하도록 하는 방법을 제안하고 있습니다. Artifact의 경우 Image-level task에서는 도움이 될 수 있으나 Pixel-level task에서는 매우 불리하게 작용할 수 있다는 점에 착안하여 Register Token 도입으로 인해 Artifact가 사라지는지, 다양한 Pixel-level에서의 Downstream Task의 성능이 향상되는지를 분석해본 결과 성능이 향상되거나 유지되는 현상을 확인함에 따라 사전 학습된 ViT 모델을 활용할 경우, Register Token의 도입만으로 Noise와 같은 Artifact를 제거할 수 있음을 입증하고 있습니다. 특이했던 점은 별도로 Global Information이 Register Token에 저장되도록 리드하지 않더라도 Global Information을 담도록 학습이 진행되는 점이 놀라웠으며, 해당 논문에서 Artifact의 Patch Feature Norm이 큰 이유에 대해 설명되지 않아 더 추가적인 설명이 있었다면 좋았을 것이라는 생각이 들었습니다. 끝으로, 최근에는 ViT에 대한 분석 논문을 많이 읽어보지 않았는데 해당 논문을 통해 ViT를 더 효과적으로 활용할 수 있는 방법이 무궁무진하다는 것을 느끼게 되었으며 더 다양한 논문들을 읽어봐야겠다라는 생각이 들었던 것 같습니다. 좋은 발표 감사합니다.


  • 2024-11-13 00:05

    이번 세미나에서는 "VISION TRANSFORMERS NEED REGISTERS"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 연구는 ViT의 Process에서 의미가 없거나 부족한 영역의 patch를 재활용하여 Artifact로 사용한다는 문제를 다룹니다. 이 Artifact는 local 정보를 상실하고, 대신 global 정보를 저장하며, 내부 계산에 활용됩니다. 이로 인해 발생할 수 있는 정보의 손실과 비효율적 관리 문제를 해결하기 위해, 추가적으로 입력되는 'Register Token'을 사용하는 새로운 접근법을 제안합니다. 이 연구는 ViT의 특이 현상으로 인해 발생하는 문제를 해결하고자 하는 시도로, 기존 patch 대신 'Register Token'을 사용함으로써, 모델이 다양한 task에서 기존 성능을 유지하면서도 더 정확한 feature map과 attention map을 생성할 수 있게 합니다. 특히, 이 Register Token은 Artifact가 수행했던 역할을 대신하여, 모델의 입력 단계에서 추가되며, Artifact에 의한 정보 손실 없이 ViT의 효율성을 극대화합니다. 본 세미나에서 소개해주신 연구에 대한 내용을 들으며, 해당 현상이 발생한다는 것 자체가 굉장히 흥미로웠고, 이를 매우 간단한 방식으로 해결한 점도 눈여겨 볼 만한 점이라 생각합니다. 유익한 세미나 준비해주셔서 감사합니다.


  • 2024-11-13 00:08

    이번 세미나에서는 "Vision Transformers Need Registers" 논문이 소개되었습니다. 이 논문은 Vision Transformer 모델이 일부 패치를 "Artifact"로 사용하여 글로벌 정보를 저장하는 현상을 분석하고, 이를 해결하기 위한 "Register Token"을 제안합니다​. 저자들은 Vision Transformer 모델이 학습 중 일부 패치를 Artifacts인 글로벌 정보 저장소로 사용함을 입증하였습니다. LLM의 Attention Sink와 비슷한 이 현상은 그 자체로는 문제가 없으나, 해당 영역의 로컬 정보를 상실하게 하여 이미지 분할 등 픽셀 단위 작업에 불리하게 작용할 수 있음을 주장합니다. 다루는 데이터의 도메인 차이가 같은 현상에 대해서도 다른 해석을 하게끔 한다는 점이 재미있었습니다. 이런 문제점을 해결하기 위해 저자들은 Special Token으로 Register Token을 도입, Artifact가 아니라 Register Token이 글로벌 정보를 저장하게 함으로써 문제를 해결하고자 했습니다. 일종의 쓰레기통을 만듦으로써 모델이 실제로 Artifact가 아닌 그 쓰레기통에 글로벌 정보를 담도록 유도되는 것이 신기했습니다. 재미있는 논문 소개 감사합니다!


  • 2024-11-13 09:04

    이번 세미나에서는 “VISION TRANSFORMERS NEED REGISTERS” 논문을 소개해주셨습니다. 이 논문은 Vision Transformer(ViT) 모델의 한계를 극복하기 위해 Register Token이라는 새로운 구성 요소를 도입하여, 기존 Artifact Patch가 담당했던 Global Information 저장 기능을 더욱 효율적으로 수행하도록 설계된 아이디어를 다룹니다. ViT 모델은 그동안 일부 Low-informative 영역을 Artifact로 활용해 Global 정보를 저장해 왔으나, 이는 Pixel-level Task에서 성능 저하를 유발할 수 있는 구조적 문제였습니다. 이에 저자들은 Register Token을 추가함으로써 Artifact 없이도 ViT가 다양한 Task에서 더 정확한 Feature와 Attention Map을 생성할 수 있도록 했습니다. 특히 실험을 통해 Pixel-level Downstream Task에서 ViT 성능이 개선되었음을 확인할 수 있었고, Global 정보를 Register Token에 학습시키는 과정도 자동으로 이루어짐을 보여준 점이 인상 깊었습니다. ViT 모델에 대한 새로운 접근법으로, 향후 ViT 연구에 중요한 아이디어가 될 가능성이 커 보였습니다. 좋은 발표 감사합니다.


  • 2024-11-13 17:41

    이번 세미나는 VISION TRANSFORMERS NEED REGISTERS 논문을 주제로 진행하였습니다. vision transformer 모델이 학습을 진행하면서 주변에 따라 학습이 불필요한 영역이 존재하는 patch에 대해 global information을 저장하고 있음을 밝힌 연구입니다. inference 단계에서 이러한 patch중 일부를 재활용하는 것을 artifact라고 하며 CLS token embedding 계산 등의 internal computation에 활용됩니다. 본 논문에서는 artifact가 발생하는 이유를 설명하고자 다양한 방법들을 시도하였으며, register token이라는 special token을 활용하는 등 여러 모델의 실험 결과를 통해 충분히 입증을 시켜주고 있습니다. 좋은 발표 감사합니다.


  • 2024-10-31 08:39

    금일 세미나는 "Vision Transformers need registers" 논문을 바탕으로 진행되었습니다. 제안 연구는 어떠한 모델을 제안하는것이 아닌, Anomaly detection task에서 Image encoder로 주요 사용되는 ViT의 분석에 관한 내용이라고 볼 수 있습니다. 해당 연구에서는 Vision Transformer의 모든 Patch가 균일하게 해당 위치를 설명하는 방향으로 사용되는 것이 아닌, 일부 Patch는 Local한 정보가 아닌 Global information을 저장하는 창고로 사용되고 있다는 것을 밝히고 있습니다. 이를 Artifact로 명명하고 있는데, 이는 해당 영역의 local information을 상실하고 있으며, global information을 저장하여 이후 CLS token embedding 계산 등의 internal computation에 활용되는 형태를 보이고 있습니다. 이때 이러한 artifact는 꼭 필요한 존재이지만, 이 때문에 잃어버리는 local feature들이 존재하기 때문에 고려해야 하는 부분이라고 볼 수 있습니다. 이에 제안 연구에서는 추가적인 학습 가능한 "Register token"을 사용하여 input sequence와 함께 입력으로 넣어줌으로써, Low-informative patch가 아닌 Register token이 Artifact의 역할을 수행하도록 유도하고 있습니다. 이를 바탕으로, Output에서는 Register token들은 버려지고 원래의 형태와 동일하게 CLS token과 patch token들만 활용되는 것을 확인할 수 있습니다. 기존 Output들의 분석을 통하여 새로운 방향을 제시하는 것이 인상적으로 다가온 연구였습니다. 좋은 발표 정말 감사드립니다.


  • 2024-11-15 00:30

    이번 세미나에서 소개된 “VISION TRANSFORMERS NEED REGISTERS” 논문을 통해 ViT 구조의 한계를 극복하고, 기존 Artifact 패치가 수행했던 글로벌 정보 저장 기능을 보다 효율적으로 처리할 수 있는 방법을 알 수 있었습니다. 특히, Register Token을 도입하여 Local 정보와 Global 정보를 동시에 보존하면서도 모델의 성능 저하 없이 다양한 Task에서 향상된 결과를 보인다는 점이 인상 깊었습니다. 이 논문은 ViT 구조의 개선 가능성을 보여주며, 향후 관련 연구에 중요한 기초를 제공할 것이라고 생각합니다. 흥미로운 발표 준비해주셔서 감사합니다.


  • 2024-10-31 00:35

    이번 세미나에서는 ICLR 2024에 발표된 "Vision Transformers Need Registers" 논문을 중심으로 진행되었습니다. 이 논문은 ViT 추론 시 일부 정보량이 적은 영역을 '아티팩트'로 활용하여 글로벌 정보를 저장하는 현상을 분석하고, 이를 해결하기 위해 '레지스터 토큰'을 도입하는 방법을 제안합니다.

    기존 ViT 모델은 추론 과정에서 정보량이 적은 배경 영역의 패치들을 내부 계산을 위해 재활용하는데, 이러한 패치들은 높은 norm을 가지며 주로 이미지의 배경 부분에 나타납니다. 이러한 현상은 모델이 해당 패치들의 지역 정보를 버리고, 대신 글로벌 정보를 저장하는 역할로 활용하기 때문입니다.

    이를 해결하기 위해 저자들은 입력 시퀀스에 추가적인 '레지스터 토큰'을 도입하여, 기존 아티팩트 패치들이 수행하던 역할을 대신하도록 설계하였습니다. 이를 통해 ViT 모델은 다양한 작업에서 더 정확한 특징 맵과 어텐션 맵을 생성할 수 있게 되었습니다.

    이러한 접근 방식은 ViT의 구조적 한계를 극복하고, 모델의 효율성을 높이는 데 기여할 것으로 기대됩니다. 향후 ViT를 활용한 다양한 연구에도 응용될 수 있는 방법론으로 활용성이 높을 것으로 보입니다. 흥미로운 주제로 좋은 발표 준비해주셔서 감사합니다.


  • 2024-10-31 02:39

    이번 세미나에서는 “Vision Transformers Need Registers” 논문이 소개되었습니다. 이 연구는 Vision Transformer(ViT)의 구조적 한계를 해결하기 위해 Register Token을 도입해 기존 Artifact Patch가 수행하던 Global Information 저장 역할을 대체하는 새로운 방식을 제안합니다. ViT는 일부 Low-informative Patch를 Artifact로 활용해 Global 정보를 저장해 왔지만, 이는 Pixel-level Task에서 성능 저하를 유발하는 문제가 있었습니다. Register Token은 입력 단계에서 추가되어 별도의 학습 없이도 Global 정보를 자연스럽게 학습하며, Artifact 없이도 ViT가 Local 정보를 유지하고 효율적으로 Global 정보를 처리할 수 있도록 설계되었습니다. 실험 결과, Pixel-level Downstream Task에서 성능이 개선되었고, Artifact 제거로 인해 모델의 효율성이 향상됨을 확인할 수 있었습니다. 이러한 접근은 ViT의 성능과 구조를 개선하는 데 기여할 수 있는 의미 있는 연구로, 향후 ViT 기반 모델 개발에 중요한 영감을 줄 것으로 보입니다. 좋은 발표 감사합니다!


전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15457
관리자 2020.03.12 0 15457
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14186
관리자 2020.03.12 0 14186
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15161
관리자 2020.03.12 0 15161
553
[Paper Review] Why CLIP fails at Dense Prediction Task? (3)
Jinwoo Jang | 2026.04.06 | 추천 0 | 조회 75
Jinwoo Jang 2026.04.06 0 75
552
[Paper Review] Dynamic Large Concept Models (8)
Jaeyong Ko | 2026.03.30 | 추천 0 | 조회 147
Jaeyong Ko 2026.03.30 0 147
551
[Paper Review] Programming Refusal with Conditional Activation Steering (15)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 413
Sunmin Kim 2026.03.10 0 413
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 337
Sunghun Lim 2026.03.01 0 337
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 248
Suyeon Shin 2026.02.25 0 248
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 503
Jaehyuk Heo 2026.02.12 0 503
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 488
Hyeongwon Kang 2026.02.10 0 488
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 595
Hankyeol Kim 2026.02.03 0 595
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13)
Sieon Park | 2026.01.29 | 추천 0 | 조회 594
Sieon Park 2026.01.29 0 594
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 394
Subeen Cha 2026.01.28 0 394

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호