[Paper Review] DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation

Paper Review
작성자
Hoyeong Kim
작성일
2022-07-28 01:43
조회
3388
1. 논문  (1) : Diffusion Models Beat GANs on Image Synthesis (OpenAI, 2021)
논문  (2) : DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation (CVPR, 2022)

2. 논문 Overview :
  • 현재 Image Generate Task 에서 좋은 성능을 보이고 있는 Diffusion Model 에 대해 소개하고, Image Manipulatoin 으로써 활용하는 두가지 논문을 소개함
  • Diffusion Models Beat GANs on Image Synthesis (OpenAI, 2021)
    • Ablation Study를 통한 Architecture Improvement 방법론을 제안
    • Classifier Guidance 방법론을 도입하여 Diffusion Model 의 성능을 향상시킴 (Fidelity <-> Diversity trade off 이용)
  • DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation (CVPR, 2022)
    • Diffusion Model (DDIM) 에 CLIP 을 결합하여 Text-Guided 방법론을 제안
    • General Application 으로써 작동할 수 있음을 보임
3. 발표자료 및 영상
  • 발표자료 : 하단 첨부
  • 발표영상 : ">Link
4. Reference
전체 14

  • 2022-08-03 14:18

    한 연구에 따르면 GAN의 성능을 뛰어넘은 결과가 나타나기도 하였습니다. 특히 Diffusion이 inversion capability가 우수하다는 점을 통해 이미지 변형 과업에 적합하다고 저자들은 주장하고 있습니다. 한편, CLIP은 Contrastive Language-Image Pretraining의 약자로 텍스트를 통해 이미지 변형(manipulation)을 시도하는 기법입니다. 결과적으로 DiffusionCLIP은 Diffusion 모델을 이용하여 CLIP을 수행하는 방법론입니다. DiffusionCLIP의 가장 큰 장점으로는 zero-shot 혹은 unseen-domain 데이터에 대해서도 높은 성능을 보인다는 점입니다. CLIP과 Diffusion 을 소개한 세미나 영상을 재시청하여 본 방법론을 다시 한 번 살펴보아야겠습니다. 이를 테면 ‘핫’한 두 기법을 잘 적용한 부분이 흥미로웠습니다. 발표 감사드립니다. 감사합니다.


  • 2022-08-07 14:28

    이번 세미나에선 Diffusion 과 관련된 두 가지 논문인 Diffusion Models Beat GANs on Image Synthesis, DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation 에 대해 소개되었습니다. 첫 번째 논문은 여러 ablation study 를 통해 가장 성능이 좋은 diffusion model architecture 를 제안하였고 classifier guidance 를 사용하면 생성 성능을 높일 수 있음을 실험적으로 증명합니다. 여기서 제안된 architecture 는 이후 diffusion을 사용한 연구들에서 baseline으로 종종 사용되고 있고 diffusionclip에서도 이 구조를 기본으로 합니다. 두 번째 논문은 DiffusionClip에선 pertained CLIP encoder를 사용하여 text guided manipulation 이 가능한 구조를 제안하고 diffusion을 사용하였기에 비슷한 task를 수행했던 styleclip보다 우수한 manipulation 성능을 보여줍니다. Pertained GAN을 사용한 image manipulation에선 입력 이미지를 GAN의 latent vector로 바꿔주는 gan inversion model 이 필요한데 inversion을 사용한 reconstruction 성능이 좋지 않다는 점에서 manipulation 이 원하는 방향으로 진행되지 않는 한계가 존재했습니다. 하지만 diffusion을 사용할 경우 원본 이미지는 그대로 복원하면서 (text)guide에 해당하는 부분만 변형할 수 있다는 점이 우수한 생성능력과 더불어 큰 장점인 것 같습니다. Diffusion에 대한 기본적인 설명부터 어려운 내용이 많이 있었던 것 같은데 세미나 중 잘 풀어주셔서 이해하기 수월했던 것 같습니다. 좋은 세미나 발표 감사합니다.


  • 2022-08-07 18:31

    이번 세미나에서는 diffusion 모델과 관련된 두개의 논문들을 다루어 주셨습니다. 그중 DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation 논문에서는 Diffusion 관련 모델은 inversion capability가 좋은 특성이 있어 image manipulation에 있어 적합하다고 설명하고 있습니다. 해당 논문에서 제시하고 있는 DiffusionCLIP은 이미지가 타겟 텍스트에 상응하도록 directional CLIP Loss를 이용해서 fine-tuning하는 과정이 포함되어 있습니다. 해당 모델은 속도나 정확성 측면에서 우수하게 image construction을 가능하게 한다는 점에서 의의가 있습니다. Diffusion 관련 내용들은 김정섭 석사과정의 발표를 통해서 주로 접했었는데 다시 해당 주제로 발표를 들을 수 있는 유익한 시간이 된 것 같습니다. 특히 background 내용들을 많이 짚고 넘어가주셔서 흐름을 잘 따라갈 수 있었습니다. 좋은 발표 감사합니다!


  • 2022-08-08 15:02

    본 세미나에서는 Diffusion Models Beat GANs on Image Synthesis, DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation 에 대한 내용을 진행하였습니다. 최근 Generative model 중에 주목을 받고 있는 Diffusion 방법론에 대한 자세한 설명이 있어서 굉장히 흥미롭게 다가왔습니다. 첫번째 논문인 Diffusion Models Beat GANs on Image Synthesis의 경우 다양한 실험들을 바탕으로 최적의 diffusion model 구조를 제안하였고, classifier guidance를 활용하여 생성 성능 향상을 실험적으로 증명하였습니다. 두번째 논문인 DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation에서는 Diffusion 계열 모델의 장점인 inversion capability가 우수하다는 점에 주목하며 Image manipulation에 적합한을 설명하고 실험적으로 증명하였습니다. Diffusion model과 관련된 논문들의 경우 수식적인 설명이 많아서 가시성이 좋은 자료를 준비하는 것이 많이 힘드셨을텐데, 적절하게 잘 준비해주신거 같습니다. 좋은 발표 감사합니다.


  • 2022-08-09 00:30

    이번 세미나에서는 diffusion model과 관련한 두 가지 논문이 소개되었습니다. 먼저, diffusion 모델은 generative model의 한 종류로, noise를 점진적으로 추가해 패턴을 무너트리고 다시 복원하는 과정을 distribution을 estimate하는 모델입니다. 이는 GAN 기반 모델 보다 더 좋은 quality의 이미지를 생성함으로써 이 diffusion을 기반으로 한 다양한 모델이 연구되고 있습니다. 그 예로 이번 세미나에서 소개된 첫번째 논문은 Diffusion Models Beat GANs on Image Synthesis은 실험적으로 좋은 성능의 diffusion model 구조를 입증하여 제안하고 classifier guidance 방법론을 제안하여 generator의 quality와 diversity를 향상시켰습니다. 두번째로 소개된 diffusionCLIP은 diffusion model의 inverse capability를 잘 활용하여 image manipulation을 잘 할 수 있는 방법론을 제안하였습니다. 특히, unlabeled Image-text pair에 대한 zero shot 성능을 향상시킨 방법론인 CLIP의 loss를 활용해 이미지가 주어진 target text에 상응하는 이미지를 생성해 내도록 하는 finetuning 기법을 제안하여 general application 성능을 향상시켰습니다. 요즘 많은 주목을 받고 있는 diffusion 모델과 관련한 두 기법을 접할 수 있어 매우 유익한 세미나였습니다. 좋은 발표 감사합니다.


  • 2022-08-09 22:05

    이번 세미나는 최근 연구실에서 자주 소개되고 있는 Diffusion 모델을 기반으로 하는 두 생성모델을 다뤘습니다. 첫번째는 Diffusion Models Beat GANs on Image Synthesis로, Ablation Study를 통해 찾은 최적의 Diffusion 기반 생성 모델 구조를 기반으로 Classifier를 통해 추가적인 Guidance를 제공함으로써 기존에 생성 모델로 널리 사용되던 GAN 기반의 성능을 뛰어넘는 모습을 보이고 있습니다. 특히, Classifier Guidance를 통해 Diversity를 확보하여 생성 모델이 양질의 다양한 이미지를 생성할 수 있게 되었습니다. 두번째 논문은 DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation으로, 사전학습된 CLIP의 Encoder를 이용하여 CLIP과 비슷하게 Text로부터 Manipulation하고자 하는 정보를 입력받는 모델을 제시했습니다. 이때 기존의 GAN 모델은 Reconstruction을 잘하지 못하기 때문에 이미지의 세부적인 표현이 약하지만, Diffusion 모델은 샘플링을 통해 Reconstruction이 용이하여 세부적인 표현이 실제와 비슷한 이미지를 생성하는 모습을 볼 수 있었습니다. 왜 Diffusion 모델이 최근 각광을 받고 있는지 그 이유를 명확히 알 수 있는 좋은 기회였습니다. 감사합니다.


  • 2022-08-09 22:41

    이번 세미나에서는 최근에 세미나에서 소개되었던 Diffusion Model을 Image Generation에 활용하여 Image Manipulatoin을 수행하는 두 가지 논문을 소개해주셨습니다. 첫 번째 논문 Diffusion Models Beat GANs on Image Synthesis (OpenAI, 2021)에서는 다양한 Ablation Study를 통해 개선된 Diffusion Model을 제안하였고, Classifier Guidance를 적용하여 추가적인 성능 개선을 확인하였습니다. 두번째 논문 DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation (CVPR, 2022)에서는 Diffusion Model에 pertained CLIP encoder를 결합하여 text를 활용한 Manipulatoin을 가능하도록 하였습니다. Diffusion Model을 통한 Image Manipulatoin은 현재 비정형 프로젝트로 시도해보고 있는 방법으로 흥미롭게 들을 수 있었습니다. 특히 기존의 GAN을 통한 image Manipulatoin과 다르게 DiffusionCLIP의 경우 Diffusion을 통해 본래의 image는 동일하게 복원하면서 text에 해당하는 부분만 변경할 수 있다는 점이 큰 장점으로 느껴집니다. 최근 인기가 있는 Diffusion Model의 구체적인 활용 방안을 살펴볼 수 있는 좋은 기회가 되었습니다. 좋은 발표 감사합니다.


  • 2022-08-09 23:45

    이번 세미나는 Diffusion을 주제로 Diffusion Models Beat GANs on Image Synthesis, DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation 두 논문을 다뤘습니다. 첫번째 논문의 경우 여러 실험을 통해 성능 향상을 꾀하였습니다. Diffusion Generator의 개선을 위해 classifier를 사용한 방법인 classifier guidance를 제안하였습니다. 두번째 논문은 Diffusion model에 CLIP을 적용한 방법론을 제안하여 GAN의 한계점인 general applictaion을 구현하고자 하였습니다. generative model 중 diffusion을 기반으로 하는 모델들이 좋은 성능을 내고 있고 지난 김정섭 석사과정의 세미나에서 diffusion에 대해 자세히 설명해주셨었는데 해당 세미나의 연장선인 것 같아 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2022-08-10 14:47

    이번 세미나는 Inversion Capability가 좋은 Diffusion 모델을 image manipulation으로써 활용 방안을 제시하는 2편의 논문으로(Diffusion Models Beat GANs on Image Synthesis, DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation) 진행되었습니다. 그 중 DiffusionCLIP 논문은 GAN Inversion Method + CLIP을 통해 Text prompt를 입력으로 받아 진행되는 Zero-shot image manipulation 연구가 novel detail과 highly variable contents image의 경우 reconstruction이 어렵다는 한계를 지적하며, Fine-tuning을 위한 Novel Sampling Strategy를 제안해 빠르고 정확한 Image reconstruction과 의도치 않은 변화없이 in-and out of domain manipulation을 가능하게 하며 SOTA 성능을 보였다고 합니다. Diffusion 분야는 김정섭 석사과정님의 Diffusion 관련 세미나를 통해서 어렴풋이만 알고 있었는데 잘 모름에도 굉장히 흥미로운 분야라는 생각이 드는 발표였습니다. 좋은 발표 감사합니다!


  • 2022-08-10 23:58

    이번 세미나는 Diffusion을 주제로 한 두가지 논문 Diffusion Models Beat GANs on Image Synthesis (OpenAI, 2021)와 DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation (CVPR, 2022)를 주제로 진행되었습니다. 두 논문 모두 최근 이미지 생성 분야에서 높은 성능을 기록하고 있는 diffusion 계열의 모델을 다루고 있습니다. 먼저 첫 논문의 경우에는 classifier guidance 방법론을 통해 fidelity와 diversity의 trade off를 통해 diffusion model의 성능을 높였습니다. 또한 ablation에서 architecture improvement 방식을 제안하였습니다. 두번째 논문은 diffusion model 중 DDIM에 CLIP를 적용하여 text guided 방법론을 제안하였으며, 이러한 방식이 general한 application을 가능케 한다는 점을 보였다는 특징이 있습니다. 최근 연구실 세미나를 통해 종종 diffusion 계열 모델을 소개받고 있는데, 비전 쪽에서 꽤나 강세를 보이고 있는 것 같아 흥미롭게 보고 있습니다. 유익한 세미나 진행해주셔서 감사합니다.


  • 2022-08-12 23:28

    이번 세미나는 “DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation” 논문에 대해 소개해주셨습니다. 최근 김정섭 석사과정의 세미나에 이어 Diffusion을 활용한 방법에 대해 설명을 들을 수 있는 좋은 기회였습니다. DiffusionCLIP은 text의 semantic 정보를 통해 diffusion을 활용하여 보다 강건한 image manipulation을 수행할 수 있게 구성된 방법입니다. 연구실 내에서 발표자가 진행하고 있는 프로젝트의 주제에 많은 흥미를 보이고 있는데 이와 관련된 내용을 소개 받을 수 있어서 인상깊게 들었습니다. 좋은 발표 감사합니다.


  • 2022-08-13 17:12

    금일 세미나는 "DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation"라는 주제로 진행되었습니다. 본 발표에서는 CLIP에 Diffusion Model을 결합한 Text-Guided 방법론인 DiffusionCLIP이 소개되었습니다. Diffusion model이 굉장히 다양한 분야에 적용되고 있는데 이 논문을 통해 image manipulation에서는 diffusion model이 어떻게 활용되고 있는지 알 수 있었습니다. DiffusionCLIP은 inversion 성능이 좋은 Diffusion Model이 image manipulation에 적합하다는 사실에서 영감을 받아 diffusion model을 GAN 기반 manipulation 모델인 CLP에 적용하고, fine-tuning을 위한 sampling 방법을 새롭게 제안하였습니다. 본 발표를 들으면서 제 연구분야인 시계열 데이터 분석에도 diffusion model을 어떻게 적용해 볼 수 있을지 생각해보는 시간을 가질 수 있어 유익했습니다. 좋은 발표 감사합니다.


  • 2022-08-16 13:18

    이번 세미나는 "DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation" 를 주제로 진행되었습니다. 본 발표에서는 CLIP에 Diffusion Model을 결합한 Text-Guided 방법론인 DiffusionCLIP이 소개되었습니다. Diffusion process 가 가우시안 노이즈를 점진적으로 주입하는 과정이고, 생성모델로써 학습된 데이터의 패턴을 생성해내는 역할을 합니다. denosiing 과정을 통해 역변환 과정이 일어나게되고, 이를 DDPM 으로 정의합니다. 이는 이전 생성모델에서 가장 유명한 GAN 기반 방법론들에 비해 성능도 높고, 학습어려움의 문제를 완화 한것으로 보입니다. 본 방법론에서 실제 예시와 어플리케이션 코드를 공유해주셨는데, 실질적으로 확인해 볼 수 있는 시간이라 조금 더 재밌게 보았습니다. 감사합니다.


  • 2022-07-29 03:03

    이번 세미나에서는 DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation에 대해 살펴보았습니다. Diffusion이 2021년 비전 학회에서 관심을 많이 받았다는 글을 어디선가 본 적이 있는데 연구실에서도 그러한 것 같습니다. 본 세미나에서 살펴본 논문에서는 DDIM을 backbone으로 가져가는데, DDPM의 일반화된 구조라고 생각됩니다. input image, reference text와 함께 target text를 입력하면 모델의 아웃풋 이미지가 해당 target text에 매칭되도록 모델을 학습합니다. 실험 결과를 보면 forward step을 generative step보다 길게 가져가야 모델이 안정화가 되는데 forward step의 절대적인 횟수가 아니라 generative step과의 대소에 의해 이런 결과가 나온다는 것이 신기했습니다. 그리고 GAN과 비교했을때 out-of-domain의 성능이 월등히 좋은 점이 매우 신기했습니다.


전체 521
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11778
관리자 2020.03.12 0 11778
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 10446
관리자 2020.03.12 0 10446
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 11484
관리자 2020.03.12 0 11484
518
[Paper Review] AutoUAD: Hyper-parameter Optimization for Unsupervised Anomaly Detection
Woojun Lee | 2025.08.12 | 추천 0 | 조회 33
Woojun Lee 2025.08.12 0 33
517
[Paper Review] Prototype-oriented unsupervised anomaly detection for multivariate time series (4)
Suyeon Shin | 2025.08.08 | 추천 0 | 조회 63
Suyeon Shin 2025.08.08 0 63
516
[Paper Review] HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting (6)
Sunghun Lim | 2025.08.04 | 추천 0 | 조회 84
Sunghun Lim 2025.08.04 0 84
515
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (8)
Hyeongwon Kang | 2025.07.29 | 추천 0 | 조회 187
Hyeongwon Kang 2025.07.29 0 187
514
[Paper Review] Recent Research Trends in Video Anomaly Detection (11)
Jaehyuk Heo | 2025.07.27 | 추천 0 | 조회 199
Jaehyuk Heo 2025.07.27 0 199
513
[Paper Review] Introduction to PINN (Some basic concepts and research directions) (11)
Hankyeol Kim | 2025.07.18 | 추천 0 | 조회 272
Hankyeol Kim 2025.07.18 0 272
512
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10)
Sieon Park | 2025.07.14 | 추천 0 | 조회 304
Sieon Park 2025.07.14 0 304
511
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9)
Subeen Cha | 2025.07.10 | 추천 0 | 조회 234
Subeen Cha 2025.07.10 0 234
510
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 412
Jaewon Cheon 2025.06.27 0 412
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 453
Minjeong Ma 2025.06.07 0 453

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호