번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10462
|
관리자 | 2020.03.12 | 0 | 10462 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9072
|
관리자 | 2020.03.12 | 0 | 9072 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10188
|
관리자 | 2020.03.12 | 0 | 10188 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (6)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 90
|
Doyoon Kim | 2025.05.01 | 0 | 90 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 181
|
Sunghun Lim | 2025.04.24 | 0 | 181 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 153
|
Suyeon Shin | 2025.04.21 | 0 | 153 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 185
|
Woongchan Nam | 2025.04.16 | 0 | 185 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 343
|
Kiyoon Jeong | 2025.04.16 | 0 | 343 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 373
|
Hyeongwon Kang | 2025.04.09 | 0 | 373 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 370
|
Jaehyuk Heo | 2025.04.02 | 0 | 370 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 357
|
Jaehee Kim | 2025.04.02 | 0 | 357 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 294
|
Jungho Lee | 2025.04.02 | 0 | 294 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 267
|
Hankyeol Kim | 2025.03.25 | 0 | 267 |
본 세미나는 DALL-E : Zero-Shot Text-to-Image Generation연구에 대해 진행되었습니다. 대표적인 Text-to-Image 모델로서, 자세히 살펴보지는 못했지만 흥미를 갖던 분야라 관심있게 들을 수 있었습니다. 기본적으로 discrete 한 이미지 임베딩을 얻기 위해 VQVAE 구조를 활용합니다. 더불어 이를 Text embedding정보와 함께 concat후 transformer decoder(GPT구조)에 삽입합니다. 이러한 구조를 통해 모델이 텍스트와 이미지의 임베딩 정보를 함께 결합분포로 학습하게 됩니다. 이를 추론 시에는 텍스트 기반 이미지 결과물을 디코딩하도록 유도합니다. 멀티모달 태스크에 어려움을 많이 느꼈는 데, 이번 발표로 많은 공부를 했습니다. 좋은 발표해주신 발표자분께 감사드립니다.
금일 발표는 Text2image generation으로 굉장히 화제가 되었던 “DALL-E : Zero-Shot Text-to-Image Generation” 논문에 대해 소개해 주셨습니다. 해당 방법론은 GPT-3를 기반으로 text를 입력값으로 하여 이미지를 생성해나가는 과정으로 학습을 진행합니다. 본 논문에서 인상깊은 점은 Large-scale Language 모델과 다른 여러가지 방법을 잘 활용하여 문제를 해결해나간 점입니다. 이번 세미나를 통해 Discrete VAE를 통해 image를 token으로 구성하는 과정, Gumbel softmax를 통해 discrete distribution의 문제점을 해결하는 과정 등 다양하게 살펴볼 수 있는 시간이었습니다. 첫 발표부터 좋은 내용 공유 감사드립니다.
이번 세미나에선 Text-to-Image Generation 에서 뛰어난 성능을 보였던 DALL-E 라는 연구에 대해 소개되었습니다. 전체 학습 과정은 VQ-VAE 형태의 Image Tokenizer 학습, 텍스트 토큰을 입력으로 이미지 토큰을 생성하는 GPT3 형태의 Decoder 학습으로 진행됩니다. VQ-VAE 는 VAE 기반 생성 모델의 성능을 discrete codebook 을 구성하는 것으로 개선한 연구로 알고 있는데, DALL-E 에선 이미지를 tokenize 하기 위한 목적으로 사용했다는 점이 인상 깊었고, 웹에서 크롤링한 저품질의 데이터라도 많은 양을 학습에 사용할 경우 zero-shot 으로 뛰어난 생성 능력을 보인다는 점이 놀라운 것 같습니다. 개인적으로 논문 리서치를 하면서 공부한 적 있었던 연구였는데 논문의 실험 세팅을 포함한 자세한 내용까지 소개해주셔서 새롭게 들을 수 있었던 세미나였습니다. 좋은 발표 감사합니다.
이번 세미나에서 소개된 논문은 DALL-E : Zero-Shot Text-to-Image Generation입니다. 본 논문에서는 auto-regressive transformer인 GPT-3모델을 기반으로 Text to Image Task를 모델링했습니다. 또한 고해상도 이미지로 인한 메모리 이슈와 high frequency detail에 치중하여 모델 자원을 활용하게 되는 이슈를 2-stage 학습 단계를 제안함으로써 해결했습니다. stage 1에서는 discreate VAE를 통해 이미지를 토큰으로 압축하고 이때 최적화를 위해 gumbel-softmax relaxation를 사용합니다. 압축된 image token의 분포와 디코딩된 원 이미지의 분포를 학습하고 stage2에서 텍스트와 이미지 토큰의 결합분포를 학습하도록 합니다. 멀티모달을 다루는 모델을 single stream으로 처리하기가 어려운데 효율적인 학습을 위한 모델 설계를 잘 고민한 것 같습니다. 좋은 발표 감사합니다.
이번 세미나는 text-to-image task로 굉장히 화제가 되었던 “DALL-E : Zero-Shot Text-to-Image Generation” 논문에 대해 설명해 주셨습니다. 기존의 text-to-image generation은 fixed dataset을 학습하기 위한 더 좋은 모델을 찾는 것에 초점을 두고 연구가 진행되어 왔으며, 이를 위해 복잡한 가정(inductive bias), 보조 손실 함수, 추가적인 라벨 등을 필요로 하게 됩니다. 본 연구는 이렇게 복잡한 가정들을 필요로 하지 않는, text와 image tokens을 single stream으로서 autoregressive하게 모델링하는 트랜스포머를 기반 접근법을 제안합니다. 트렌스포머를 사용하게 되면, memory issue와 short-range dependence라는 문제가 발생하게 되지만, 저자는 2-stage training을 통해 해당 문제를 해결합니다. 첫번째 stage에서는 discrete VAE(dVAE)를 사용하여 Image Encoding을 학습하고, 다음 stage에서는 transformer를 학습하게 됩니다. 그리고 inference시에는 stage1에서 사용한 dVAE와 transformer가 반환한 image latent token을 사용하여 이미지를 만들게 됩니다. 유명한 논문이어서 한번 읽어보고 싶었는데 세미나를 통해 접할 수 있어서 좋았습니다. 재밌는 발표 감사합니다!
본 세미나를 통해 DALL-E : Zero-Shot Text-to-Image Generation 논문을 리뷰하였습니다. 현재 multi-modal task가 굉장히 큰 화제를 끌고 있고, 그 화제의 중심이 되고 있는 논문이어서 상당히 흥미로웠습니다. DALL-E의 경우 120억개의 매개 변수로 이루어진 Transformer 기반의 모델로, GPT-3의 확장 형태입니다. vision과 NLP 기술을 결합하여 만든 Text to Image Task를 Auto-regressive하게 모델링합니다. 이러한 DALL-E는 Zero-shot, Single generative model등의 관점에서 훌륭한 일반화 성능을 보였다는 contribution이 있습니다.
앞으로도 vision과 NLP의 융합이 이루어진 multimodal task가 AI 분야에서 큰 부분을 차지할거라고 생각합니다. 본 세미나를 통해서 multimodal task가 어떤식으로 연구가 되고 있는지 흐름을 잡을 수 있었습니다. 좋은 발표 감사합니다!
이번 세미나에선 text-to-image task에서 매우 좋은 성능을 보여 대중적으로 큰 이목을 끌었던 DALL-E가 소개되었습니다. DALL-E의 전체 구조는 GPT와 동일한 트랜스포머 디코더로 구성되어 있습니다. 이때, 텍스트를 먼저 입력으로 넣고, 이미지는 VQ-VQE를 통해 임베딩하여 입력으로 넣습니다. VQ-VAE는 codebook을 기반으로 autoencoder 구조로 학습하여 각 패치를 입력으로 하여 토큰을 생성하는 모델이라고 할 수 있습니다. 모델의 학습과정은 우선 VQ-VAE를 학습하고, 학습된 VQ-VAE를 freeze하여 전체 모델을 학습하는 순서로 구성되어 있습니다. 최근 multi modality에 대한 관심도나 연구들이 많은 것으로 알고 있는데, VQ-VAE를 이용하여 비교적 단순한 학습 구조를 통해서도 훌륭한 결과물을 만들어내는 것이 흥미로웠습니다. 감사합니다!
금일 세미나는 Text-to-Image Task에서 우수한 성능을 보였던 DALL-E라는 모델이 소개되었습니다. 선행 연구 모델 중 VQ-VAE 류 방법론들도 인상깊은 퍼포먼스를 보여준 것으로 기억됩니다. 이에 DALL-E는 Transformer 기반의 Autoregressive 방식으로 이미지를 생성해내는 것을 보여주고 있습니다. 특별히 2단계로 구성된 학습 방식을 채택하였는데 첫번째 단계에서는 discrete VAE를 통해 codebook vector를 학습하게 되고, 즉 이미지의 인코딩 벡터를 학습하는 것이고 두번째 단계에서는 이를 바탕으로 모델을 학습하게 되는 것입니다. 이에 더해 16-bit precision으로 메모리 효율 성을 높이고 PowerSGD를 이용하여 gradient를 압축시켜 학습의 효율성을 높인 것을 알 수 있습니다. 기회가 된다면 정 반대의 task인 이미지 캡셔닝과의 task process 과정을 비교해보는 것도 흥미로울 것 같습니다. 재미있는 발표 준비해주셔서 감사합니다.
이번 세미나는 GPT-3를 활용하여 text로부터 이미지를 생성하는 DALL-E : Zero-Shot Text-to-Image Generation를 주제로 진행되었습니다. DALL-E는 GPT-3와 같이 auto-regressive한 트랜스포머 구조를 이미지에 맞게끔 확장하였으며, 대량의 데이터를 활용하여 괄목할 만한 zero shot 성능을 보였습니다. 발표자분께서 text-to-image task의 기존 연구 흐름부터 차근차근 짚어주셔서 발표를 잘 따라갈 수 있었습니다. 본 논문에서는 text와 image 토큰을 단일 stream으로 모델링하고자 했습니다. 그 과정에서 발생하는 메모리 문제나 short-range dependence 문제를 해결하기 위하여 2단계의 학습 구조를 제안하였습니다. 우선 Discrete VAE를 통해 이미지를 작은 사이즈로 압축하고 text와 image 토큰을 concat하여 결합 분포를 모델링했습니다. 학습 리소스 측면에서도 mixed precision training과 distributed optimization을 통해 GPU 연산의 효율을 증대하고자 했다는 점이 인상 깊었습니다. 비정형 프로젝트 미팅 때마다 발표자분께서 속한 music-to-image 팀의 진행 상황을 흥미롭게 듣고 있는데, 이번 세미나에서 이와 관련한 연구를 소개받을 수 있어 더욱 유익한 시간이었습니다. 좋은 발표 감사드립니다.
금일 세미나는 "DALL-E : Zero-Shot Text-to-Image Generation"라는 주제로 진행되었습니다. 본 발표에서는 auto-regressive transformer 모델인 GPT3를 기반으로 text-to-image generation task를 수행하는 DALL-E가 소개되었습니다. 개인적으로는 예전에 연구실 프로젝트를 통해 AttnGAN을 활용한 text-to-image generation을 수행한 적이 있었기 때문에 AttnGAN 이후 어떠한 방향으로 text-to-image generation 모델들이 발전했는지 들을 수 있어 흥미로웠습니다. DALL-E는 memory issue와 short-range dependency 문제를 해결하기 위해 visual codebook을 학습하는 단계와 prior를 학습하는 두 단계로 학습을 진행하였고, 개인적으로는 지난 BEIT 세미나에서도 접했던 visual codebook이 활용된 첫 번째 단계가 흥미로웠습니다. 좋은 발표 감사합니다.
이번 세미나는 Text2image generation을 수행하는 DALL-E를 주제로 진행되었습니다. 먼저 이미지를 Discrete VAE를 사용하여 image token으로 압축하고 GPT3를 이용하여 Text와 image token의 결합분포를 모델링하는 autoregressive transformer를 학습합니다. 이미지에 대해서 이전 VQ-VAE를 학습하여 Codebook을 활용하였다는게 인상 깊었으며, 해당 방법론을 통해 고해상도 이미지의 메모리 이슈와 이전 모델들의 short-range dependence를 우선시 하던 한계점을 해결하고자 한 점이 인상 깊었습니다. Text2image task 연구에 대해서는 아는 것이 적었는데 이번 세미나를 통해 새로운 것을 배웠던 것 같습니다. 좋은 발표 감사합니다.
금일 세미나에서는 DALL-E : Zero-Shot Text-to-Image Generation 논문을 다루어 주셨습니다. DALL-E는 트랜스포머 기반의 GPT-3확장 형태입니다. 모델에 text만 또는 text와 image를 넣어서 이미지를 생성할 수 있는 text-to-image generation task를 수행할 수 있습니다. 굵직하게 2가지의 stage로 이루어져 있는데, 첫번째 stage에서는 dVAE를 이용하여 RGB 이미지(256x256)를 작은 사이즈(32x32)의 이미지 토큰으로 압축시킵니다. 두번째 stage에서는 앞서 구한 이미지 토큰과 BPE 인코딩된 텍스트 토큰을 concat하여 텍스트와 이미지 토큰의 결합 분포를 모델링하는 autoregressive 트랜스포머를 학습시킵니다. multimodal 분야에서 화제가 되었던 DALL-E 모델을 살펴볼 수 있는 좋은 기회였던 것 같습니다. 좋은 발표 감사합니다!
최근 화제가 되고 있는 Dall-E2의 전신인 Dall-E에 대해 소개해주셨습니다. 해당 방법론은 text to image 분야에서 물체 왜곡, 배경과의 조화 등의 문제를 해결하기 위해 대용량 데이터셋을 통한 학습 방법을 제안합니다. 기본적으로 GPT-3 기반의 구조를 갖고 있으며, VQ-VAE 구조의 visual codebook까지 활용합니다. Web scale의 데이터를 사용하여 학습하는 모델의 경우 방대한 양 때문에 전처리에 한계가 있는데, 이 때문에 발생하는 bias 이슈에 대해 언젠가 다루어지길 기대하고 있습니다. 또한 해당 기술을 사용하여 창출할 수 있는 비즈니스적 가치에 대해서도 많은 고민이 필요할 것 같습니다. 발표 잘 들었습니다.
이번 세미나 에서는 최근에 후속 연구인 DALL-E2가 공개되기도 한 "DALL-E: Zero-Shot Text-to-Image Generation" 논문을 소개해 주셨습니다. DALL-E는 GPT-3를 기반으로 하는 모델로 Auto-regressive transformer 구조를 그대로 활용하며 Image 분야에 활용할 수 있도록 확장한 것 입니다. 이러한 구조를 사용하는 데 있어 고해상도의 Image를 Pixel 단위에서 직접적으로 사용하여 Memory 문제가 발생하고 목적함수로 Likelihood를 사용하기 때문에 Short-range dependence 문제가 발생했다고 합니다. 논문에서는 이를 해결하기위해 사용한 방법이 매우 인상적이었습니다. 전체 과정을 2개의 stage로 나누어 학습을 진행하며, 먼저 Discrete VAE를 이용하여 이미지를 토큰을 압축하고, 그 결과를 text 토큰과 concat하여 Auto-regressive transformer로 학습하게 됩니다. 결과적으로 앞서 언급한 문제점들을 해결할 수 있었으며 GPT-3 구조를 활용한 모델답게 유의미한 Zero-shot 성능을 달성할 수 있었습니다. 최근 진행하고 있는 프로젝트가 노래의 음원과 가사를 활용해 이미지를 생성하는 것이라 본 논문을 리뷰 한 적이 있었는데 다시 한번 들으니 더 깊이 이해할 수 있었습니다. 또 요즘 개인적으로 multi-modal에 대한 관심이 커 더욱 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.
본 세미나에서는 "DALL-E: Zero-Shot Text-to-Image Generation" 에 대하여 살펴보았습니다. DALL-E는 GPT-3를 기반으로 하는 text-to-image generation model 입니다. VAE를 활용하여 이미지를 토큰화 하는 stage와 BPE encoding을 통해 생성한 text token을 결합하여 Transformer를 학습하는 stage로 구성되어 있습니다. 비교적 간단한 아이디어로 지금까지 존재하던 문제들을 완화 했다는 점이 재밌었습니다. 또한 최근 굉장히 관심이 쏠리고 있는 multi modality, 특히 text-to-image 분야에 큰 기여를 했다는 점에서 연구자들에게 많은 귀감이 될 것 같습니다. 저 또한 좋은 연구를 위해서 모델의 큰 부분을 변경하는 것 보다 문제 정의를 바르게 하고 그 문제를 해결하기 위한 방법들을 제안하는 것이 더 좋은 방향임을 다시 한번 알 수 있었습니다.
이번 세미나에서는 그 유명한 "DALL-E: Zero-Shot Text-to-Image Generation"에 대해서 소개해주셨습니다. DALL-E는 VQ-VAE의 방법론을 활용해서 이미지로부터 codebook을 학습하고, 생성된 codebook의 임베딩을 이미지 표상으로써 활용하게 됩니다. 즉 NLP에서 token이 discrete하게 활용되듯이, 우선 이미지에 대해서도 discrete한 표상 획득 방법론을 선택하고 있습니다. 이는 이미지의 local한 rich feature를 decoding 과정에서 잘 반영할 수 있다는 특징을 갖게 됩니다. 이후 DALL-E는 GPT-3를 기반으로 해서 text token과 결합해 이미지를 생성하게 됩니다. 멀티모달 분야가 굉장히 핫하게 연구되고 있는데, 그 중 가장 유명한 모델에 대해서 소개해주셔서 감사합니다. 앞으로도 좋은 발표 기대하겠습니다.
본 세미나에서는 비교적 최근 그리고 널리 알려진 모델인 DALL-E에 대해 자세하게 다루는 시간을 가졌습니다. 이는 주어진 설명으로 이루어진 Text를 이미지로 바로 변환해주는 Generation을 수행하며 120억 개의 매개변수로 이루어진 Transformer 기반의 GPT-3의 확장 형태입니다. Image Captioning과 같이 CV와 NLP기술이 합쳐진 Text-to-Image Task를 Auto Regressive 하게 모델링하며, 충분한 데이터를 통해 학습되었을 때 GPT가 Fine-tuning없이 바로 활용 가능했던 것처럼, 좋은 Zero-shot performance를 보여주게 됩니다. DALL-E는 Text와 Image를 단일한 데이터로 활용하는데 이 때 고해상도의 이미지를 픽셀 단위로 직접적으로 사용함으로써 발생하믄 메모리 이슈와 픽셀 간의 dependency만 크게 고려하는 문제를 해결하기 위하여 Discrete VAE를 통해 이미지를 압축하고 Text를 Concat하는 2 Stage로 모델을 구성하게 됩니다. 널리 알려진 모델에 대해 자세한 설명을 들을 수 있어서 감사했습니다.
이번 세미나는 DALL-E : Zero-Shot Text-to-Image Generation 논문으로 진행되었습니다. 안 그래도 핫한 논문인 만큼 유명한 아보카드 예시처럼 대략적으로 어떤 결과를 도출해낸지만 아는 상태였는데 이렇게 좋은 기회로 자세한 이야기까지 접해볼 수 있어 너무 좋았고, 그만큼 재밌게 들었던 것 같습니다. DALL-E는 GPT-3의 확장 형태로 Text to image task를 auto-regressive하게 모델링한 Multi-modal 분야에 한 획을 그은 논문입니다. Discrete VAE를 이용하여 RGB image를 더 작은 차원의 image token으로 압축한 후, text token과 concat하여 text와 image의 결합 분포를 autoregressive하게 modeling한 것이 DALL-E의 전반적인 학습 방식입니다. 거대한 모델인만큼 Mixed-precision이나 distributed optimization을 통해 GPU efficiency를 고려한 점도 신기했습니다. 마지막에 개인적인 생각까지 공유해주셔서 더 많은 것을 생각해볼 수 있는 발표였던 것 같습니다. 좋은 발표 감사합니다!
이번세미나에서는 auto-regressive transformer 기반 text to image generation task 를 위한 접근법이 제안되었습니다. large scale gpt3 확장 형태이며 image captioning 과 cv 와 nlp 를 결합시키는 task 에서 zero shot performance 를 보여주는 모델입니다. 간만에 보는 text to image task 였고, 예전에 연구실에서 관련주제로 연구를 진행하였었기에, 최근 기법은 어떤 발전이 있나 알아보았습니다. figure 를 통해 결과를 보면 그 정확성이 매우 높아 신기했었고, 발표자 분꼐서 지적한 한계점에서는 object 들이 많을 수록 객체간 관계성을 잘 표현하지 못한다고 했는데, 이러한 부분을 보완하면 좋은 연구가 될 것 같습니다. 좋은발표감사합니다.
이번 세미나는 text-to-image generation을 위해 제안된 방법론인 DALL-E : Zero-Shot Text-to-Image Generation에 대해 진행되었습니다. text-to-image generation은 text를 입력으로 주어 이에 대한 image를 생성하는 task로 본 방법론은 이를 위해 text와 image token을 single stream으로 모델링하는 것이 특징입니다. 이때 고해상도의 image를 pixel 단위로 사용하기 때문에 메모리 이슈가 발생할 수 있으며, pixel 간의 short-range dependecy를 우선적으로 본다는 한계가 있을 수 있습니다. 이를 해결하기 위해 2 stage로 training하도록 하였습니다. 따라서 stage 1에서 discrete VAE를 통해 image token을 32x32으로 압축한 후 다음 stage에서 text token과 concat하여 autoregressive transformer를 학습합니다. 그 결과, zero-shot에서 기존보다 향상된 성능을 보였습니다. 좋은 발표 감사합니다.