[Paper Review] Restructuring Vector Quantization with the Rotation Trick

Paper Review
작성자
Woojun Lee
작성일
2025-05-20 23:52
조회
831
1. 논문 제목: Restructuring Vector Quantization with the Rotation Trick (ICLR 2025)
2. 논문 링크: https://arxiv.org/abs/2410.06424
3. 논문 코드: https://github.com/cfifty/rotation_trick
4. 인용 수: 3회 (2025/05/20, Google scholar 기준)
5. 요약: 본 논문은 VQ-VAE에서 encoder output을 codebook vector로 quantize할 때 발생하는 gradient 단절 문제를 해결하고자, encoder output을 해당 codebook vector로 회전(Rotation) 및 스케일 조정하여 매끄럽게 정렬하는 Rotation Trick을 제안합니다.
이 기법은 forward 결과를 그대로 유지하면서도, backward에서는 벡터 간의 각도(angular distance) 를 보존하여 gradient를 encoder로 전파하는 새로운 방식입니다. 이를 통해 codebook utilization 증가, quantization error 감소, reconstruction 품질 향상이라는 세 가지 주요 효과를 동시에 달성합니다.

6. 발표자료 및 발표영상
- 발표자료: 하단 첨부
- 발표영상: 
전체 16

  • 2025-05-21 16:06

    이번 세미나는 기존 Vector Quantization 연산 과정에서 Argmin 연산의 불연속성으로 인해 Gradient Flow가 막히는 현상을 해결하기 위한 Straight Through Estimator가 가지는 문제점들을 해결하기 위해 기존 연구들이 이를 그대로 복사해서 사용하거나, 복잡한 확률적 구조를 적용함으로써 발생하는 새로운 문제점들이 발생하는 것과 달리 구조적 변경 없이 Gradient Flow을 Geometry-aware한 방식으로 재정의하여 학습의 안정성과 성능을 높인 Rotation Trick을 적용한 “Restructuring Vector Quantization with the Rotation Trick”라는 논문에 대한 발표를 중심으로 진행되었습니다. Rotation Trick은 인코더의 출력에 Rotation 및 Rescaling 연산을 수행해 Codebook 벡터와의 정렬을 수행하고, 이를 Backward 할 시에는 고정된 선형 연산으로 Gradient를 이동시켜 Geometry, 즉 벡터 간 각도를 보존하여 Gradient를 전달시킵니다. 해당 방법론의 가장 큰 장점은, 여러 분야에서 활용하는 Vector Quantization 및 STE의 문제점을 개선시켰기 때문에 CNN부터 ViT, TimeSformer 등의 다양한 방법론에도 잘 적용될 수 있다는 점이라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-05-22 02:05

    AI 모델 위주로 공부를 하다보면 기존에 존재하는 세부적인 기법들을 조합해서 새 구조의 모델을 제안하는 연구들을 주로 접하게 되기도 하는데, 때문에 이번 세미나에서 소개해주신 논문과 같이 수학적 formulation을 기반으로 일반성을 갖춘 technique을 제안하는 연구가 매력적이라 느껴집니다. Vector quantization과 관련된 여러 개념들과, VQ 기반 방법론에서 기존에 사용되어 오던 straight throguh estimator (STE)가 갖는 문제점을 인식할 수 있었습니다. STE의 gradient 계산 과정을 근본적으로 재고해보고, 문제 극복을 위해 rotation trick을 고안한 것이 대단하게 느껴졌습니다. 수식적으로 복잡하지 않고 오히려 직관적인만큼, 별 생각 없이 사용하던 기법의 본질적인 의미를 상기하고 문제를 인식하는 것이 매우 중요함을 다시금 느끼게 되었습니다. 좋은 발표 감사합니다!


  • 2025-05-23 01:11

    이번 세미나에서는 Vector Quantization의 비미분성 문제를 해결하기 위한 새로운 기법을 제안한 논문 Reconstructing Vector Quantization with the Rotation Trick을 중심으로 진행되었습니다. 기존의 Straight-Through Estimator(STE)는 Voronoi Region 내 위치에 상관없이 동일한 gradient를 전달하여 codebook collapse나 gradient 왜곡 등의 문제가 있었으며, 이를 개선하기 위해 Rotation Trick을 도입하였습니다. 이 방법은 encoder 출력과 codebook vector 간의 각도를 고려한 geometry-aware한 gradient 전달을 통해 학습 안정성과 성능을 동시에 개선하고, 다양한 downstream task에서 quantization error 감소 및 codebook usage 향상이라는 실험적 성과를 보였습니다.


  • 2025-05-23 08:02

    이번 세미나에서는 VQ-VAE의 비미분 특성을 해결하기 위해 제안된 Rotation Trick이 인상 깊었습니다. 기존의 straight-through estimator는 gradient를 단순히 복사해 전달하는 방식이었지만, 이 논문은 encoder 출력을 회전 및 스케일 조정함으로써 angular distance를 보존하고, 그 결과 학습 안정성과 표현력을 함께 개선하는 데 성공했습니다. 특히 기존 구조를 바꾸지 않고 수학적 기법만으로 문제를 해결하려 한 점에서, 복잡한 모델 제안 없이도 창의적인 방식으로 구조적 한계를 보완할 수 있다는 중요한 통찰을 얻을 수 있었습니다. 좋은 발표 감사합니다!


  • 2025-05-23 17:10

    이번 세미나에서는 VQ-VAE 구조에서 오랫동안 해결되지 못한 중요한 문제인 gradient 단절과 codebook collapse 문제를 매우 직관적이면서도 효과적인 방법으로 해결한 ‘Restructuring Vector Quantization with the Rotation Trick’ 논문에 대해서 발표해 주셨습니다. 기존에는 encoder 출력이 어느 위치에 있든 동일한 gradient를 전달하는 STE 방식이 널리 쓰였으나, 이는 encoder 위치 정보를 완전히 무시해 표현력 저하와 코드북 사용률 감소를 야기했습니다. 본 논문은 encoder 출력과 가장 가까운 codebook vector 간의 각도 정보를 보존하고, 벡터 정렬을 위한 회전과 스케일 조정을 통해 gradient가 encoder로 자연스럽게 전파되도록 하는 Rotation Trick을 제안하였습니다. 특히 해당 방식에서 forward에서는 기존 구조를 그대로 유지하면서도, backward에서는 각도 기반의 geometry-aware한 gradient 흐름을 적용해 학습 안정성과 표현 성능을 동시에 향상시킨 점이 흥미로웠습니다. 또한 Transformer 기반 구조에서 취약했던 codebook collapse 현상을 효과적으로 방지한 점이 매우 인상깊었습니다. 단순한 아이디어를 바탕으로 복잡한 문제를 깔끔하게 해결한 본 논문의 접근 방식은 향후 다양한 VQ 기반 모델에 적용 가능한 일반적인 프레임워크로 확장 가능성이 높다고 생각합니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2025-05-24 16:37

    이번 세미나에서는 Vector Quantization의 gradient 흐름 문제를 해결하기 위해 제안된 Rotation Trick 기법을 소개한 “Restructuring Vector Quantization with the Rotation Trick” 논문을 중심으로 진행되었습니다. 기존 STE 방식은 encoder의 위치 정보를 반영하지 못하고 gradient를 일률적으로 전달해 학습 안정성 및 표현력에 한계가 있었던 반면, 본 논문은 encoder 출력을 codebook 벡터와 정렬되도록 회전 및 스케일링하여 geometry-aware한 gradient를 제공하는 방식으로 이를 개선하였습니다. 특히 구조적 수정 없이 학습 성능을 끌어올릴 수 있다는 점에서 높은 실용성과 일반성을 동시에 갖춘 기법이라고 느꼈습니다. 다양한 VQ 기반 모델에 응용 가능성이 높아, 향후 활용 범위가 기대되는 연구였습니다. 좋은 발표 감사합니다!


  • 2025-05-27 13:18

    금일 세미나는 VQ 방법론들에서 자주 나타나는 gradient 추론의 불완정성을 보완하기 위해 제안된 "Restructuring Vector Quantization with the Rotation Trick"을 중심으로 진행되었습니다. VQ 방법론은 Encoder의 output representation과 가장 가까운 Index를 선택하여 이를 decoder의 입력으로 사용하게 됩니다. 하지만 학습 과정에서 gradient backprop 시 이러한 argmax 연산은 역전파가 불가능하고 이를 추정하는 여러가지 기법들이 제안되어 왔습니다만, 실제 gradient를 제대로 추론하지 못하고 있었습니다. 이를 해결하기 위하여 본 논문에서는 encoder output vecotr를 선택된 index vector로 빠르게 선형 변환할 수 있는 rotation trick을 제안하고 있습니다. 실제 구현은 선형대수에 기초를 두고 있어 매우 강력하면서도 역전파가 직접적으로 가능하기 때문에 거의 온전한 backprop이 가능한 것으로 이해하였습니다. 실제 성능면에 있어서도 기존 방법론 대비 높은 성능을 도출할 뿐 아니라 codebook 활용도가 더 높아져, VQ 기반의 여러 방법론들에 있어 학습 안정화와 성능 개선에 모두 기여할 수 있을 것으로 보이는 연구였습니다. 직관과 수학적 전개, 실험을 통한 뒷받침이 잘 조화된 연구였던 것 같습니다. 좋은 발표 감사드립니다.


  • 2025-05-27 14:40

    이번 세미나에서는 VQ-VAE 구조에서 오랫동안 지적되어 온 gradient 흐름의 비연속성과 codebook collapse 문제를 직관적인 수학적 아이디어로 해결한 Rotation Trick 기법을 흥미롭게 접할 수 있었습니다. 특히 구조적인 변경 없이 encoder 출력의 방향성과 크기를 조정해 codebook vector와의 alignment를 유도하고, 이를 통해 geometry-aware한 gradient 흐름을 가능케 했다는 점이 인상 깊었습니다. 기존 STE 방식의 한계를 극복하면서도 ViT, TimeSformer 등 다양한 아키텍처에 쉽게 적용 가능하다는 점에서, 본 논문이 제안한 방식은 실용성과 확장성 모두를 갖춘 일반적인 해결책이 될 수 있다는 생각이 들었습니다. 유익한 발표 감사합니다!


  • 2025-05-27 15:49

    이번 세미나에서는 VQ-VAE에서의 gradient 단절 문제를 해결하기 위해 제안된 Rotation Trick 기법을 다룬 "Reconstructing Vector Quantization with the Rotation Trick" 논문을 소개해 주셨습니다. 기존 STE 방식이 encoder 위치 정보를 무시했던 반면, 본 논문은 회전 및 스케일 조정을 통해 각도 기반의 gradient 전파를 가능하게 하여 학습 안정성과 표현력을 향상시켰습니다. 구조 변경 없이 codebook 활용도와 재구성 품질을 동시에 높인 점이 인상적이었고, 다양한 VQ 모델에 적용 가능성이 높아 흥미로운 연구라고 생각합니다. 좋은 발표 감사합니다!


  • 2025-05-27 19:40

    이번 세미나에서는 ICLR 2025에 발표된 Restructuring Vector Quantization with the Rotation Trick 논문을 중심으로, VQ-VAE(Vector Quantized Variational AutoEncoder)의 비미분 가능성 문제를 해결하기 위한 새로운 접근법인 '회전 기법(Rotation Trick)'을 소개해주셨습니다. 이 연구는 기존의 스트레이트 스루 추정기(STE)가 벡터 양자화 과정의 정보를 무시한다는 한계를 극복하고자, 인코더 출력과 코드북 벡터 간의 각도와 크기 정보를 보존하는 방식으로 그래디언트를 전달하는 방법을 제안하였습니다 .

    회전 기법은 인코더 출력을 해당 코드북 벡터로 회전 및 스케일링하여 부드럽게 변환하고, 이 변환을 역전파 시 상수로 취급함으로써 그래디언트가 양자화 계층을 통과하도록 합니다. 이를 통해 인코더 출력과 코드북 벡터 간의 상대적인 각도와 크기 정보가 그래디언트에 반영되어, 코드북 활용도 증가와 양자화 오류 감소 등의 성능 향상을 이끌어냅니다 .

    실험 결과, 회전 기법을 적용한 VQ-VAE는 기존 대비 재구성 품질, 코드북 활용도, 양자화 오류 측면에서 유의미한 개선을 보였습니다. 예를 들어, ImageNet 데이터셋에서 VQGAN을 훈련할 때 회전 기법을 적용하면 재구성 FID가 5.0에서 1.6으로 감소하고, 코드북 활용도가 2%에서 9%로 증가하는 등 성능 향상이 확인되었습니다 .

    이번 발표를 통해 비미분 가능성 문제를 해결하는 새로운 방법론과 그 실질적인 효과를 이해할 수 있었으며, VQ-VAE의 성능 향상에 대한 깊은 통찰을 얻을 수 있었습니다. 좋은 발표 감사합니다!


  • 2025-05-29 23:28

    이번 세미나에서는 "Restructuring Vector Quantization with the Rotation Trick"이라는 논문을 소개해주셨습니다. Rotation Trick이 기존 STE 방식의 한계였던 gradient 단절 문제를 벡터 간의 각도 정보를 활용해 효과적으로 극복하였으며, encoder output을 codebook vector에 정렬시키는 회전 및 스케일 변환을 통해 forward는 유지하면서 backward에서는 더 의미 있는 gradient 흐름을 만들 수 있다는 점이 인상깊었습니다. 특히 다양한 구조에서 codebook collapse 없이 학습이 가능하다는 실험 결과가 제안 기법의 일반성과 실용성을 잘 보여주는 것 같았습니다. 고차원 공간에서 효율적인 회전을 위해 Householder Reflection을 활용한 부분도 계산적 실용성을 고려하였다는 점과, 향후 hyperbolic 공간으로의 확장 가능성도 흥미롭게 느껴졌습니다. 좋은 발표 감사합니다!


  • 2025-05-30 16:59

    금일 세미나는 “Restructuring Vector Quantization with the Rotation Trick” 논문을 바탕으로 진행되었습니다. 제안 연구는 VQ-VAE의 학습 과정에서, Vector Quantization 단계에서의 Gradient단절 문제를 해결하기 위한 기존 방법(STE)의 한계를 극복하고자 Rotation Trick을 도입하고 있습니다. VQ-VAE에서는 encoder에서 나온 continuous한 벡터를 discrete한 codebook 벡터 중 가장 가까운 것에 mapping한 arg min 연산을 바탕으로 수행되게 됩니다. 이때, arg min 연산의 특성상 불연속성이 발생하며, Gradient flow의 막힘이 발생하기에 STE라는 방식을 통하여 학습하고 있습니다. 이는 Codebook 업데이트 시 안정화를 위해, stop-gradient는 encoder와 codebook간의 gradient흐름을 분리해 각 모듈이 자기 책임만 학습하는 방식입니다. 그러나 이러한 방식은 Voronoi Region(Codebook Vector 별 영역)내의 모든 encoder output들이 동일한 방향으로 이동하게 한다는 단점이 존재하여, Codebook collapse 및 Gradient field 왜곡을 야기하고 있습니다. 이에 제안 연구에서는 단순한 복사에 그치는 것이 아닌, codebook 벡터와의 상대적인 위치 정보를 Gradient에 반영하여 전달하는 것을 목적으로 하여, 회전(Rotation), 리스케일링(Rescaling)등을 바탕으로 update 하는 방법을 제안합니다. 비교적 단순한 방법이지만, 문제를 잘 정의하였고 아이디어가 매우 참신했다고 생각했습니다. 좋은 발표 정말 감사드립니다.


  • 2025-05-25 23:52

    이번 세미나에서는 "Restructuring Vector Quantization with the Rotation Trick"라는 논문에 대한 소개를 중심으로 진행되었습니다. 해당 연구는 VQ-VAE의 핵심 문제인 gradient 단절과 codebook collapse를 해결하기 위해 기하학적 정보(각도, 크기)를 보존하는 Rotation Trick을 제안했습니다. 기존 STE(Straight-Through Estimator)의 한계를 넘어, encoder 출력과 codebook 벡터 간의 상대적 위치를 gradient에 반영함으로써 학습 안정성과 성능을 동시에 개선한 점이 특히 주목할 만했습니다. 다만, e와 q 사이 각도가 둔각일 경우 역방향 회전으로 인해 오히려 원치 않는 codebook 벡터로 유도될 수 있는 점이 아쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2025-05-23 23:52

    이번 세미나에서는 VQ-VAE의 gradient 단절 문제와 codebook collapse 현상을 해결하기 위해 Rotation Trick을 도입한 “Restructuring Vector Quantization with the Rotation Trick” 논문을 소개해주셨습니다. 기존 STE 방식이 encoder 출력 위치와 관계없이 동일한 gradient를 전달해 표현력 저하와 코드북 활용도 감소를 유발하는 문제를 갖고 있었던 반면, 본 연구는 encoder 출력과 codebook vector 간의 상대적 위치 정보를 활용해 회전(Rotation)과 스케일 조정(Rescaling)을 통해 더 정교한 gradient 흐름을 제공하는 구조를 제안하였습니다. 이를 통해 forward path는 기존 구조를 유지하면서도, backward path에서는 geometry-aware한 gradient가 전달되어 학습 안정성과 성능을 모두 향상시킬 수 있었으며, 특히 Transformer 기반 구조에서 자주 발생하는 codebook collapse 문제를 효과적으로 완화한 점이 인상적이었습니다. 단순하지만 강력한 아이디어로 VQ 구조의 근본적 문제를 해결한 점에서, 다양한 VQ 기반 모델에도 확장 가능성이 높다고 느꼈습니다. 좋은 발표 감사합니다.


  • 2025-06-10 23:47

    이번 세미나는 Vector Quantization에서 자주 사용되는 Straight Through Estimator(STE)의 Gradient Flow 단절 문제를 해결하기 위한 새로운 접근인 "Rotation Trick"을 다룬 논문 발표로 진행되었습니다. 기존의 복잡한 확률적 기법이나 구조 변경 없이, 인코더 출력에 Rotation 및 Rescaling을 적용해 Codebook과의 정렬을 유도하고, 이를 고정된 선형 연산으로 역전파할 수 있도록 함으로써 벡터 간 각도를 보존하며 안정적인 Gradient 전달이 가능해졌습니다. 수학적 정교함을 기반으로 하면서도 직관적인 방식이 인상적이었고, CNN부터 ViT, TimeSformer 등 다양한 모델에 일반적으로 적용 가능하다는 점에서 이 기법의 확장성과 실용성이 돋보였습니다.


  • 2025-05-27 23:52

    이번 세미나에서는 “Restructuring Vector Quantization with the Rotation Trick”라는 논문에 대해 소개해주셨습니다. 기존의 VQ-VAE에서는 encoder output을 codebook vector에 mapping하는 과정에서 non-differentiable한 argmin 연산으로 인해 gradient 흐름이 단절되며, 이를 보완하기 위해 STE 방식이 사용되어 왔지만, 이는 encoder의 위치 정보를 반영하지 못하는 한계가 있었습니다. 이번에 제안된 Rotation Trick은 encoder output을 가장 가까운 codebook vector에 회전과 스케일 조정을 통해 정렬하고, 이 과정을 통해 forward 경로는 기존과 동일하게 유지하면서도 backward에서는 geometry-aware gradient를 효과적으로 전달한다는 점이 인상 깊었습니다. 특히 이 방식은 각도 정보를 기반으로 encoder에 유의미한 방향성을 부여함으로써, codebook utilization을 증가시키고 quantization error를 줄이며, 재구성 품질까지 개선하는 성과를 보여주었습니다. 고차원 공간에서의 연산 안정성을 위해 Householder reflection을 사용하는 구성도 현실적인 고민이 반영된 설계로 느껴졌고, 향후 VQ 구조의 일반화를 위한 기반 기술로서 확장성이 높다고 생각됩니다. 기존의 STE 방식에 비해 직관적이면서도 구조적 변화 없이 성능을 향상시킬 수 있다는 점에서 실용성과 이론적 기여를 모두 갖춘 접근이라는 인상을 받았습니다. 좋은 발표 감사합니다.


전체 539
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 13523
관리자 2020.03.12 0 13523
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 12267
관리자 2020.03.12 0 12267
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 13207
관리자 2020.03.12 0 13207
516
[Paper Review] HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting (11)
Sunghun Lim | 2025.08.04 | 추천 0 | 조회 548
Sunghun Lim 2025.08.04 0 548
515
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (9)
Hyeongwon Kang | 2025.07.29 | 추천 0 | 조회 817
Hyeongwon Kang 2025.07.29 0 817
514
[Paper Review] Recent Research Trends in Video Anomaly Detection (11)
Jaehyuk Heo | 2025.07.27 | 추천 0 | 조회 980
Jaehyuk Heo 2025.07.27 0 980
513
[Paper Review] Introduction to PINN (Some basic concepts and research directions) (11)
Hankyeol Kim | 2025.07.18 | 추천 0 | 조회 3510
Hankyeol Kim 2025.07.18 0 3510
512
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10)
Sieon Park | 2025.07.14 | 추천 0 | 조회 928
Sieon Park 2025.07.14 0 928
511
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9)
Subeen Cha | 2025.07.10 | 추천 0 | 조회 607
Subeen Cha 2025.07.10 0 607
510
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 910
Jaewon Cheon 2025.06.27 0 910
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 749
Minjeong Ma 2025.06.07 0 749
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 47
Minjeong Ma 2025.06.02 0 47
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 40
Kiyoon Jeong 2025.06.02 0 40

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호