[Paper Review] Back to Basics: Let Denoising Generative Models Denoise

Paper Review
작성자
Woojun Lee
작성일
2026-01-13 16:52
조회
384
  1. 논문 제목: Back to Basics: Let Denoising Generative Models Denoise
  2. 논문 링크 : link
  3. Venue: arXiv 2025
  4. Overview
    • 본 논문은 최근 Denoising Diffusion Models에서 관행처럼 사용되고 있는 ε-prediction / v-prediction 방식이, 고차원 데이터 공간에서는 본질적인 한계를 가진다는 문제의식에서 출발합니다. 저자들은 Manifold Assumption에 기반하여, 자연 데이터는 저차원 manifold 위에 존재하지만 noise나 noised quantity는 본질적으로 off-manifold에 분포한다는 점을 강조하며, 네트워크가 직접 clean data (x-prediction) 를 예측하도록 설계하는 것이 근본적으로 더 적합하다고 주장합니다. 이러한 관점 하에서, 논문은 어떠한 tokenizer, latent space, pre-training, auxiliary loss 없이도 plain Vision Transformer가 pixel space에서 강력한 diffusion generative model로 작동할 수 있음을 보입니다.
    •  

      저자들은 이를 “Just Image Transformers (JiT)” 라는 매우 미니멀한 구조로 구현하며, large patch size(16, 32) 환경에서도 ε/v-prediction이 catastrophic failure를 보이는 반면, x-prediction은 안정적으로 작동함을 이론 및 실험적으로 입증합니다. 특히, under-complete network에서도 x-prediction이 가능한 이유를 manifold 관점에서 해석하고, bottleneck embedding이 오히려 성능을 개선할 수 있다는 결과는 기존 diffusion 설계에 대한 중요한 재고를 제시합니다.
  5. 발표 자료 및 발표 영상
    • 발표 자료: 하단 첨부
    • 발표 영상:
전체 13

  • 2026-01-13 20:52

    금일 진행한 논문은 “Back to Basics: Let Denoising Generative Models Denoise”로, generative model에서 denoising을 위한 prediction 방식과 loss 설계에 대해 다룬 연구였습니다. 특히 diffusion model에서의 x, ε, v prediction과 각각에 대응되는 loss에 대해 자세한 배경 설명을 제공하여, 이후 제안되는 내용들을 이해하는 데 큰 도움이 되었습니다. 본 논문은 수식적으로는 동일한 의미를 갖더라도, 모델이 무엇을 예측하도록 설계하고 어떤 loss를 사용하느냐에 따라 성능이 크게 달라질 수 있다는 점에 주목합니다. 이를 바탕으로, 복잡한 구조나 추가 기법 없이 보다 단순한 형태의 diffusion model을 새롭게 제안하였습니다. 비록 제안된 방법이 SOTA를 달성하지는 못했지만, 연구의 방향성과 문제를 바라보는 관점 측면에서 새로운 패러다임을 제시한다는 점에서 의미 있는 논문이라고 생각했습니다. 높은 성능을 달성하는 새로운 구조를 제안하는 연구도 물론 중요하지만, 이처럼 기존 방법을 근본부터 재검토하며 다른 연구자들에게 새로운 시각과 영감을 줄 수 있는 연구 역시 매우 중요하다는 점을 다시 한번 느끼게 해준 논문이었습니다. 논문 전반에 걸쳐 설명이 매우 자세하고 충실했으며, 특히 연구의 방향성에 깊이 공감할 수 있었습니다. 좋은 논문을 발표해주셔서 감사합니다.


  • 2026-01-14 09:56

    금일 세미나에서 다뤄진 논문은 “Back to Basics: Let Denoising Generative Models Denoise”였습니다. 해당 연구는 diffusion generative model의 prediction target에 대한 근본적인 재고를 제안한 매우 흥미로운 논문이었습니다.

    기존에는 대부분 ϵ-prediction 또는 v-prediction이 표준이었지만, 해당 논문에서는 이러한 접근이 고차원 공간에서 본질적으로 모델의 용량 문제를 야기할 수 있다는 점에 주목합니다. 원본 데이터가 저차원 manifold 상에 존재하는 반면, 노이즈 또는 noised quantity는 고차원 공간 전체에 분포한다는 관점은 이 논문의 출발점이자 핵심 통찰입니다.

    저자들은 이론과 실험을 통해 깨끗한 데이터 x를 직접 예측하는 x-prediction이 실제로 더 안정적이고 효율적임을 보여주었습니다. 특히 고해상도 이미지(ex. ImageNet 256×256, 512×512) 환경에서 단순하고 추가적인 구조 없이 Vision Transformer를 pixel 공간에서 바로 사용하는 “Just Image Transformers(JiT)” 구조를 제안한 점이 인상적이었습니다. 기존 방식은 latent space/ tokenizer/ auxiliary loss 등을 필수로 사용하는 반면, JiT는 이러한 요소 없이도 경쟁력 있는 성능을 보여주며 diffusion 모델 설계의 본질적인 부분을 다시 생각하게 했습니다.
    논문에서 특히 흥미로웠던 부분은 x-prediction이 under-capacity 네트워크에서도 잘 작동하는 이유를 매니폴드 관점에서 해석한 점과, bottleneck embedding이 오히려 성능을 개선할 수 있다는 실험적 결과였습니다. 이러한 결과들은 단순히 모델 구조를 개선하는 수준을 넘어, diffusion 모델에 대한 근본적인 이해를 돕는 방향을 제시한다고 느꼈습니다.

    비록 JiT가 기존 SOTA 구조들과 비교할 때 모든 면에서 성능적 우위를 확보했다고 보긴 어렵지만, diffusion 모델의 기본 문제 정의와 prediction target의 선택을 다시 검토해야 한다는 점에서는 매우 중요한 시사점을 제공한다고 생각합니다. 세미나를 통해 이 논문의 문제 의식과 실험적 검증 과정을 자세히 이해할 수 있었고, 특히 기본으로 돌아가 “denoising” 본연의 문제를 정의하려는 접근에 깊은 공감을 느꼈습니다.

    앞으로 diffusion generative model 연구 방향에 대한 논의가 더욱 풍부해질 수 있기를 기대합니다. 좋은 논문과 발표 준비에 감사드립니다 🙂


  • 2026-01-14 13:24

    이번 세미나에서는 “Back to Basics: Let Denoising Generative Models Denoise”논문과 diffusion에 관한 전반적인 내용을 다뤄주셨습니다. Diffusion 모델이 본래 denoising 생성 모델임에도 불구하고, 실제 학습 대상은 noise나 score 예측에 치중되어 있다는 점을 지적하며 원본 데이터를 직접 예측하는 x-prediction 방식의 효용성을 강조한 방법론을 소개해주셨습니다. 저자들은 토이 실험을 통해 데이터가 특정 매니폴드 상에 존재하는 고차원 공간에서는 noise나 velocity 예측보다 깨끗한 데이터인 x를 직접 예측하는 것이 본질적으로 더 쉬운 문제임을 입증했습니다. 이를 바탕으로 별도의 토크나이저나 VAE 없이 픽셀 공간에서 직접 원본 이미지를 예측하는 JIT(Just Image Transformer) 모델을 제안하였으며, 실험 결과 JIT는 ImageNet과 같은 고해상도 데이터에서도 안정적인 학습과 뛰어난 확장성을 보이며 기존 잠재 공간 디퓨전 모델에 버금가는 생성 성능을 달성했습니다. 분석해야하는 데이터의 양과 형태가 바뀌는 상황에서 과거의 방법론을 다시 끌고 오는 접근 방식 또한 연구에 있어서 중요함을 인식하게 한 논문이었습니다. 또한 diffusion 관련 background가 매우 상세하여 많은 공부를 할 수 있었습니다. 좋은 발표해주셔서 감사드립니다.


  • 2026-01-14 21:29

    이번 세미나에서 소개된 “Back to Basics: Let Denoising Generative Models Denoise” 논문은 diffusion 모델을 바라보는 기존의 관점을 다시 점검하게 만드는 인상적인 연구였습니다. 그동안 당연하게 받아들여졌던 ε-prediction이나 v-prediction 대신, 모델이 실제로 복원해야 할 대상인 깨끗한 데이터 x 자체를 예측하도록 설계하는 것이 왜 더 합리적인지 이론적으로 잘 설명해주었습니다. 특히 데이터가 저차원 매니폴드에 존재한다는 가정 하에서, 고차원 전체에 퍼져 있는 노이즈를 맞히는 것보다 원본 데이터를 직접 예측하는 문제가 모델 용량 측면에서 더 자연스럽다는 해석이 설득력 있게 다가왔습니다.

    이를 바탕으로 제안된 Just Image Transformer(JiT)는 별도의 latent space나 tokenizer 없이 픽셀 공간에서 바로 diffusion을 수행한다는 점에서 상당히 도전적인 접근이었고, 단순한 구조임에도 고해상도 이미지에서 경쟁력 있는 성능을 보였다는 점이 인상 깊었습니다. 비록 절대적인 성능 지표에서 SOTA를 완전히 뛰어넘는 결과는 아니었지만, diffusion 모델에서 “무엇을 예측해야 하는가”라는 가장 근본적인 질문을 다시 던졌다는 점에서 연구적 가치가 크다고 느꼈습니다. 복잡한 기법을 추가하기보다 문제 정의 자체를 재정의함으로써 새로운 가능성을 보여준 논문이었고, diffusion 모델을 보다 본질적으로 이해하는 데 큰 도움을 주는 발표였습니다.


  • 2026-01-15 16:31

    이번 세미나에서는 "Back to Basics: Let Denoising Generative Models Denoise" 논문에 대해 소개해주셨습니다. 본 논문은 diffusion 모델에서 관행적으로 사용되어 온 ε-prediction 및 v-prediction을 근본적으로 재검토하고, denoising generative model은 clean data 자체를 예측해야 한다는 명확한 문제의식을 제시한 점이 매우 인상적이었습니다. 특히 manifold assumption에 기반해 고차원 공간에서 noise나 velocity 예측이 본질적으로 불안정해질 수 있음을 이론적, 실험적으로 보여주고, 이를 x-prediction으로 해결한 접근은 diffusion 설계 전반에 중요한 시사점을 제공한다고 생각합니다. 또한 tokenizer, latent space, auxiliary loss 없이도 plain Vision Transformer가 pixel space에서 강력한 diffusion 모델로 작동할 수 있음을 보인 JiT의 미니멀한 설계는, 최근 복잡해지고 있는 diffusion 파이프라인에 대해 “무엇이 정말 필요한가”를 다시 생각하게 만드는 의미 있는 결과라고 느꼈습니다. 좋은 발표 감사합니다.


  • 2026-01-16 13:37

    Diffusion 기반 연구들은 언제 봐도 항상 어려운 것 같은데, 이번 세미나에서 관련 개념들을 제안 배경과 함께 이론적으로 친절하게 짚어주셔서 많은 도움이 되었습니다. 수학적으로 [μ, 𝜺, score, x, v]-prediction 방식이 모두 동일함에도 불구하고 예측 대상을 달리 함으로써 좌표계가 달라져 성능에도 차이가 발생한다는 것이 신기했습니다. Back to Basics 논문에서도 이를 toy experiment로 직관적으로 보여주어 보다 잘 이해되었습니다. Denoising을 위한 diffusion이 실제로 denoise를 수행하는 것이 아닌, noise 자체를 예측하는 방식으로 이용되는 것이 다소 모순된다는 motivation으로부터 시작해, diffusion model이 실제로 denoising을 목적으로 학습되도록 방법론을 제안한 것이 좋은 연구로 느껴졌습니다. 논문에서 제안한 Just image Transformer (JiT)의 구조는 latent space를 사용하지 않고 pixel space에서 바로 diffusion을 수행한다는 점이 인상깊었습니다. 긴 시간의 알찬 세미나 준비해주시느라 고생 많으셨습니다, 감사합니다!


  • 2026-01-18 17:12

    이번 세미나에서는 diffusion의 여러 군을 수식적으로 탐색하는 시간을 가졌습니다. 소개해주신 연구에서는 여러가지 prediction 방식을 비교 분석함에 따라 결과적으로 diffusion이 지향해야 할 방식으로 네트워크가 직접 원본 데이터 혹은 clean data를 예측할 수 있도록 함을 주장하고 있습니다. Diffusion이라는 것의 핵심은 결국 처음 주어지는 어떠한 정보가 어떤 분포의 어느 원본 데이터로부터 온 것인 지를 파악하는 점이 아닐까 싶습니다. 그러한 면에서 diffusion의 여러 가지 학습 방식이 계속해서 발전되고 있는 점이 인상깊었습니다. 비단 diffusion이 꼭 생성을 위한 모델이 아니라 다른 과업을 위해 수행될 수도 있을까에 대한 궁금증도 가지게 되었습니다. 흥미로운 발표였습니다. 감사합니다.


  • 2026-01-19 14:05

    이번 세미나에서 다뤄진 논문은 “Back to Basics: Let Denoising Generative Models Denoise”로, diffusion generative model에서 오랫동안 관행처럼 사용되어 온 prediction target에 대해 근본적인 질문을 던지는 인상적인 연구였습니다. 특히 ε-prediction이나 v-prediction이 수식적으로는 동일한 의미를 갖더라도, 고차원 데이터 공간에서는 모델이 실제로 학습해야 하는 난이도와 안정성이 크게 달라질 수 있다는 점을 명확하게 짚어준 것이 인상 깊었습니다. 본 논문은 자연 데이터가 저차원 manifold 위에 존재한다는 가정 하에서, off-manifold에 분포하는 noise나 velocity를 예측하는 것보다 clean data인 x 자체를 직접 예측하는 것이 더 본질적으로 적합한 문제 설정임을 이론적·직관적으로 설명합니다. 특히 toy experiment와 manifold 관점의 해석을 통해, under-capacity 네트워크에서도 x-prediction이 안정적으로 작동할 수 있는 이유를 설득력 있게 보여주었습니다. 기존 방법을 당연하게 받아들이기보다, 기본으로 돌아가 denoising이라는 본래 목적을 다시 정의하려는 접근은 앞으로의 diffusion 연구 방향에 중요한 시사점을 준다고 느꼈습니다. 좋은 발표 감사합니다.


  • 2026-01-20 13:32

    이번 세미나에서는 “Back to Basics: Let Denoising Generative Models Denoise” 논문을 통해 diffusion 모델에서의 prediction target을 근본적으로 재고하는 흥미로운 논의를 다뤄주셨습니다. 수식적으로 동일한 의미를 갖는 ε-, v-, x-prediction이 실제 학습 난이도와 안정성 측면에서는 큰 차이를 보일 수 있음을 manifold 관점에서 설득력 있게 설명한 점이 인상적이었습니다. 특히 clean data인 x를 직접 예측하는 것이 under-capacity 모델에서도 더 안정적으로 작동할 수 있다는 분석은 diffusion 모델을 바라보는 시각을 넓혀주었습니다. 또한 별도의 latent space나 tokenizer 없이 픽셀 공간에서 동작하는 JiT 구조는 diffusion 설계에서 무엇이 본질적인 요소인지 다시 생각하게 만들었습니다. 높은 성능을 넘어서 문제 정의 자체를 재검토하는 연구의 중요성을 느낄 수 있었던 세미나였습니다. 좋은 발표 감사합니다.


  • 2026-01-24 20:06

    이번 세미나에서는 “Back to Basics: Let Denoising Generative Models Denoise” 논문을 중심으로 diffusion 모델의 기본 개념과 문제 설정을 다시 돌아보는 내용을 다뤄주셨습니다. 본 논문은 diffusion 모델이 본래 denoising generative model임에도 불구하고 실제 학습에서는 noise나 score 예측에 치중해 왔다는 점을 비판하며, 깨끗한 데이터 x 자체를 직접 예측하는 x-prediction이 더 본질적이고 쉬운 문제일 수 있음을 이론적·toy 실험을 통해 설득력 있게 보여주었습니다. 이를 바탕으로 별도의 VAE나 tokenizer 없이 픽셀 공간에서 바로 원본 이미지를 예측하는 Just Image Transformer(JiT)를 제안하였고, 단순한 구조임에도 고해상도 데이터에서 안정적인 학습과 경쟁력 있는 생성 성능을 달성한 점이 인상적이었습니다. 복잡한 기법을 추가하기보다 문제 정의 자체를 재검토하는 접근의 중요성을 다시 한번 느끼게 해준 논문이었으며, diffusion 모델의 배경 설명도 충실해 많은 도움이 되는 세미나였습니다. 좋은 발표 감사합니다.


  • 2026-01-27 19:53

    금일 세미나는 “Back to Basics: Let Denoising Generative Models Denoise” 논문을 바탕으로 진행되었습니다. 본 논문은 diffusion generative model에서 관행적으로 사용되어 온 ε-prediction 및 v-prediction을 근본적으로 재검토하며, denoising 모델이 실제로는 깨끗한 데이터 x 자체를 예측하도록 설계되는 것이 더 본질적일 수 있음을 제안합니다. 특히 자연 데이터가 저차원 매니폴드 상에 존재한다는 관점에서, 고차원 공간 전체에 분포하는 noise를 예측하는 문제보다 원본 데이터를 직접 예측하는 문제가 모델 용량 측면에서 더 안정적일 수 있음을 이론과 toy experiment를 통해 설명한 점이 인상적이었습니다. 이를 바탕으로 저자들은 별도의 latent space나 tokenizer 없이 픽셀 공간에서 바로 diffusion을 수행하는 Just Image Transformer(JiT)를 제안하였으며, 단순한 구조임에도 고해상도 이미지 데이터에서 경쟁력 있는 성능을 보였습니다. 비록 모든 설정에서 SOTA를 달성하지는 못했지만, diffusion 모델의 기본 문제 정의와 prediction target 선택을 다시 돌아보게 만든다는 점에서 의미 있는 시사점을 제공하는 연구라고 느꼈습니다. Diffusion 모델들의 변천사를 한눈에 보기 쉽게 정리해주어서 이해하기 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2026-01-27 21:35

    이번 세미나에서는 “Back to Basics: Let Denoising Generative Models Denoise” 논문을 소개해주셨습니다. 본 연구는 확산 모델과 같은 디노이징 생성 모델이 본래의 목적에서 벗어나 과도하게 복잡한 설계와 부가적인 목표를 떠안고 있다는 문제의식에서 출발하며, 모델이 가장 잘하는 역할인 ‘노이즈 제거’ 자체에 다시 집중해야 한다는 메시지를 전달합니다. 최근 생성 모델이 표현 학습이나 판별적 태스크까지 함께 수행하도록 확장되어 온 흐름을 되짚으며, 이러한 방향이 반드시 본질적인 성능 향상으로 이어지는지에 대한 질문을 던진 점이 인상적이었습니다. 발표에서는 디노이징 생성 모델의 학습 목표와 동작 원리를 다시 정리하며, 노이즈 제거 과정이 데이터의 구조를 학습하는 데 충분한 신호를 제공한다는 점을 강조했습니다. 불필요한 제약이나 추가적인 손실을 도입하기보다, 디노이징 과정 자체를 충실히 설계하고 활용하는 것이 더 안정적이고 해석 가능한 결과로 이어질 수 있다는 설명이 설득력 있게 전달되었습니다. 이는 최근 복잡해지는 모델 설계 흐름 속에서 기본 가정을 다시 점검하게 만드는 계기로 느껴졌습니다.


  • 2026-02-02 15:39

    이번 세미나에서는 Back to Basics: Let Denoising Generative Models Denoise 논문을 중심으로 diffusion 모델에서 흔히 당연하게 받아들여져 온 학습 설계를 다시 점검하는 내용을 다루었습니다. 본 논문은 diffusion 모델이 denoising generative model임에도 불구하고 실제 학습에서는 노이즈나 중간 변수를 예측하도록 설계되어 왔다는 점에 문제를 제기하며, 모델이 복원해야 할 대상인 원본 데이터 자체를 직접 예측하도록 하는 단순한 설정이 오히려 더 적합할 수 있음을 실험적으로 보여주었습니다. 특히 동일한 모델 구조와 loss를 사용하더라도 prediction target의 선택만으로 고차원 환경에서 성능과 안정성이 크게 달라질 수 있음을 toy experiment를 통해 명확히 드러낸 점이 인상적이었습니다. 이러한 분석을 바탕으로 제안된 Just Image Transformer는 별도의 잠재 공간이나 복잡한 보조 기법 없이도 픽셀 공간에서 안정적인 diffusion 학습이 가능함을 보여주었으며, diffusion 모델 설계에서 무엇이 핵심 요소인지 다시 생각하게 만들었습니다. 성능 경쟁을 넘어, 기존 관행을 비판적으로 재검토하고 문제를 바라보는 시각을 확장했다는 점에서 의미 있는 연구였다고 생각합니다. 좋은 발표 감사합니다.


전체 551
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 14265
관리자 2020.03.12 0 14265
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 13064
관리자 2020.03.12 0 13064
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 14014
관리자 2020.03.12 0 14014
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (2)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 48
Jaehyuk Heo 2026.02.12 0 48
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (2)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 54
Hyeongwon Kang 2026.02.10 0 54
546
[Paper Review] Introduction to Neural Operator (9)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 143
Hankyeol Kim 2026.02.03 0 143
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (12)
Sieon Park | 2026.01.29 | 추천 0 | 조회 216
Sieon Park 2026.01.29 0 216
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (12)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 151
Subeen Cha 2026.01.28 0 151
543
[Paper Review] Model Merging for Continual Learning (11)
Hun Im | 2026.01.24 | 추천 0 | 조회 160
Hun Im 2026.01.24 0 160
542
[Paper Review] Selective Learning for Deep Time Series Forecasting (13)
Jinwoo Park | 2026.01.24 | 추천 0 | 조회 204
Jinwoo Park 2026.01.24 0 204
541
[Paper Review] Multiple Instance Learning in Time Series (10)
Doyoon Kim | 2026.01.13 | 추천 0 | 조회 335
Doyoon Kim 2026.01.13 0 335
540
[Paper Review] Back to Basics: Let Denoising Generative Models Denoise (13)
Woojun Lee | 2026.01.13 | 추천 0 | 조회 384
Woojun Lee 2026.01.13 0 384
539
[Paper Review] MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images (14)
Jungi Lee | 2026.01.06 | 추천 0 | 조회 307
Jungi Lee 2026.01.06 0 307

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호