[Paper Review] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Paper Review
작성자
Minjeong Ma
작성일
2024-01-09 07:41
조회
2268
1. 논문 제목
  • BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022)
  • 링크: 바로가기

2. Overview


  • Vision-Language Understanding/Generation Task에 유연하게 적용할 수 있는 새로운 VLP 프레임워크인 BLIP 제안
  • Captioner가 Synthetic Caption을 생성하고 Filter가 노이즈 있는 캡션을 제거하는 Bootstrap 방식으로 노이즈가 있는 웹 데이터를 효과적으로 활용함
  • Image-Text Retrieval, Image Captioning, VQA 등 다양한 Vision-Language Task에서 SOTA 달성
  • Zero-shot 방식으로 Vision-Language Task에 직접 적용했을 때 강력한 일반화 능력을 보임

3. 발표자료 및 발표영상

[1] 발표자료: 하단 첨부
[2] 발표영상: ">바로가기

4. 참고 문헌

[1] [Paper Review] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
전체 15

  • 2024-01-19 10:34

    오늘 세미나는 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation" 논문을 중심으로 진행되었습니다. 멀티모달 모델을 위해선 1. 모달리티간 서로 다른 representation을 가진 점 2. 각 모달이 주는 정보의 양이 동일하지 않은 점 3. 모델이 task를 해결하기 위해 특정 모달에 편향되는 3가지 문제를 해결해야합니다. 이를 해결하기 위해 Vision-Language 연구에선 모델을 대량의 데이터로 사전학습 하는 방식을 사용하고 있습니다. BLIP은 각 모달에 대한 understanding과 generation 역량이 뛰어난 Unified model을 학습하기 위해 이미지와 텍스트를 각각 ViT와 BERT로 encoding한 뒤, 두 encoder의 representation을 Transformer의 self attention과 cross-attention 사이에 추가되는 방식으로 image grounded text encoder와 decoder를 학습합니다. 이렇게 구성한 프레임 워크를 학습하기 위해 Unimodal encoder의 representation을 align하는 itc loss, image grounded text encoder를 학습하기 위한 ITM, decoder를 학습하는 LM loss를 모두 합하여 사용합니다. 그 결과, BLIP은 다양한 multi-modal task에서 SOTA 성능을 달성할 수 있었습니다. Unimodal의 representation을 align하는 과정에서 contrastive learning을 사용한 것이 다소 단순하다 생각했지만, 결국 데이터가 많으면 뭐든 학습이 잘되는 세상이 되지 않았나 세삼 체감하게 됐습니다. 멀티모달에 대해서 다소 생소했는데 발표자분께서 자세하고 꼼꼼하게 설명해주셔서 쉽게 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2024-01-19 14:18

    금일 세미나는 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation"을 중심으로 진행되었습니다. 해당 논문은 온라인 상에 존재하는 대량의 Image-Caption Pair 데이터셋에 대하여 저품질의 데이터가 상당수 존재하므로 이를 정제하여 VLM 학습에 사용하는 프레임워크를 제안하고 있습니다. 이를 위해 우선 모델 구조로서 Image/Text Encoder 하나씩을 사용하되 태스크에 따라 Text Encoder의 Cross Attention 및 Self Attention 레이어를 조정하여 사용하고 있습니다. 3가지 Pretrain Task인 ITC, ITM, LM으로 학습을 진행하는데, 이때, ITC와 ITM은 Contrastive Learning 기반의 목적함수로서, LM은 텍스트 생성 목적함수로서 동작합니다. 이렇게 학습된 모델은 ITC/ITM을 통해 Finetune된 Filter 모델과 LM을 통해 Finetune된 Filter Captioner 모델을 통해 대량의 원본 텍스트 및 합성 텍스트의 노이즈를 제거하게 됩니다. 정제된 데이터는 다시 다음 Pretrain Phase에서 사용되는 순환구조를 가지고 있습니다. 해당 프레임워크로 학습된 BLIP 모델은 다양한 Downstream Task에서 매우 높은 성능을 달성하면서 1) 적절한 Pretrain Task 및 2) 데이터 필터링 기법 모두 성능 개선에 큰 도움이 되었음을 증명하고 있습니다. Multi Modal 분야의 경우 두 Modal의 Aling이 이루어져 있는 데이터를 수집해야 한다는 점에서 Scaling이 매우 힘들 것으로 예상되는데, 이러한 문제점을 잘 극복하고자 한 논문인 것 같습니다. 좋은 발표 감사합니다.


  • 2024-01-20 10:24

    금일 세미나에선 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation" 이라는 VLM 모델을 다룬 논문을 소개해주셨습니다. BLIP 논문에서의 주된 주장은 동일 저자들이 쓴 앞선 연구인 ALBEF에서도 그랬듯, 대량의 Image Caption Pair 데이터 셋 중 web based 데이터 셋과 같은 저품질의 데이터 셋의 정제를 통한 VLM 학습 성능 향상을 주 목표로 프레임워크를 제안하였습니다. ALBEF에서 사용했던 ITC, ITM 뿐만아닌, 텍스트 생성을 위한 Pretrain task LM 까지 추가하여, 모델 파이프라인을 구성하였습니다. 그 사이 사이 Filter를 적용하여, 텍스트 노이즈를 줄이는 방향으로 좀더 정제된 생성물을 도출할 수 있게 장치를 추가하여습니다. VLM 모델 특성상 복잡한 모델구조와, 다양한 Loss들이 존재하는데, 발표자 분께서 figure와 설명을 잘 해주셔서 이해에 큰 도움이 됐던 것 같습니다. 좋은 발표 감사합니다.


  • 2024-01-20 19:33

    이번 세미나에서는 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation이라는 논문을 다루었습니다. 해당 방법론은 multi-modal model 그 중에서도 vision language model을 제안하였습니다. BLIP은 Unimodal Encoder, Image-grounded Text Encoder, Image-grounded Text Decoder로 구성되어 있습니다. 또한 Understanding과 Generation 기능을 모두 갖춘 unified model을 사전 학습하기 위해 multi-task 모델인 MED(Multimodal Mixture of Encoder-Decoder)를 제안하였습니다. Unimodal encoder를 통해 image와 text를 별도로 인코딩합니다. Image-grounded text encoder가 [Encode] embedding을 통해 image-text pair의 multimodal representation을 산출합니다. Image-grounded text decoder는 casual self-attention layer를 추가하여 구성됩니다. Itc, its, lm loss를 더하여 최종 Loss를 구성하며 모델을 학습합니다. 또한 noise를 제거하기 위해 capfilt를 추가로 활용합니다. 실험에서는 여러 downstream task에서 높은 성능을 달성한 것을 확인할 수 있었습니다. VLM에 대해 배울 수 있는 유익한 시간이었던 것 같습니다. 좋은 발표 감사합니다.


  • 2024-01-22 10:32

    이번 세미나에서는 Vision-Language Model 중 Backbone으로 많이 사용되는 방법론 중 하나인 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation에 대해 다뤄주셨습니다. 해당 Task는 기존 방법론들이 Vision-Language Understanding에서만 국한되서 사용되는 것과 달리 Generation Task까지 확장될 수 있도록 했으며 웹 크롤링으로 수집된 데이터들의 Noise를 해결하기 위해 Captioner를 사용하는 방법을 제안합니다. 전반적인 구조는 ALBEF와 거의 동일하지만 Generation Task를 위해 추가적인 Decoder를 뒤에 붙여서 사용하는 것이 인상적이었습니다. 또한 noisy data를 해결하기 위해 앞선 ALBEF에서는 distillation을 활용하고 있지만 BLIP에서는 이거에 더하여 Captioner를 사용하는 것이 인상적이었습니다. distilllation 보다 captioner가 직접적으로 데이터를 새로 생성하다는 점에서 분명한 효과가 있을 것이라 생각되지만 한편으론 Captioner model에 의존하게 되어 다양성이 떨어지는 것은 아닌가 하는 생각도 들었습니다. 좋은 발표 감사합니다 🙂


  • 2024-01-22 14:24

    금일 세미나에서는 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation이라는 논문을 다뤄주셨습니다. 해당 논문에서 제안되는 BLIP은 ALBEF의 후속연구로, Unified Model을 사전학습하기 위한 1) MED (Multimodal Mixture of Encoder-Decoder) 구조와 Web Text 데이터 내의 Noisy함을 줄이고자 2) CapFilt (Captioning and Filtering) 두 가지 방법을 제안하고 있습니다. 1) MED는 기존 ALBEF의 3가지 loss였던 ITC, ITM, MLM에서 MLM을 LM으로 수정하여 학습시키는 구조이며 일반적으로 VLP에 널리 쓰이는 MLM과 다르게 LM을 사용함으로써 시각적 정보를 일관된 캡션으로 변환할 수 있도록 의도한 것을 알 수 있었습니다. 2) CapFilt의 경우 이미지가 주어질 경우 하나의 Synthetic Caption을 생성한 후 원본 텍스트와 Synthetic Caption 모두에서 Noise를 제거하는 Filtering 작업을 통해 Noise를 최대한 줄이고자 하는 것을 알 수 있었습니다. 기존 ALBEF 방법은 Encoder based model 이었기 때문에 Image Captioning과 같은 Generation Task에 약세를 보였지만 BLIP에서 제안되는 Encoder-Decoder 두 가지를 모두 활용한 MED 구조를 통해 Multi-task 모델로 더욱 확장시켜 Image Captioning과 같은 Downstream task에서도 좋은 성능을 보여줬다는 점에서 흥미로웠던 것 같습니다. 자세한 설명을 바탕으로 발표를 진행주신 발표자분께 감사의 인사를 드립니다. 좋은 발표 감사합니다!


  • 2024-01-22 15:21

    이번 세미나에서는 “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation”이라는 연구에 대해 소개해 주셨습니다. 해당 논문에서는 기존 Vision-Language Pretraining 방법론의 1) Generation 또는 Understanding Task만 잘한다는 모델 측면, 2) Pretraining에 사용되는 Web Text를 Rule-base로 필터링했음에도 Noisy가 많다는 데이터 측면 한계를 지적했습니다. BLIP은 Image Encoder, Text Encoder 맟 Image-grounded Text Encoder와 Image-grounded Text Decoder로 구성됩니다. 총 네 개의 개별 모델로 구성되어 있어 사전 학습에 매우 많은 Resource가 필요하다고 생각했지만, 실제로는 Text Encoder와 Decoder에서는 Self-Attention을 제외한 파림터들은 Share하는 방식으로 Pre-training의 효율을 높이면서 Multi-task Learning의 이점을 살렸습니다. 사전 학습 시에는 ITC Loss, ITM Loss, 그리고 LM Loss를 함께 이용했습니다. 기존에 VLP에서 널리 사용되던 MLM Loss와 달리 LM Loss를 사용한다는 점에서 명확한 차이를 보였습니다. VLP 관련 논문들을 직접 읽어본 적이 없었는데 이번 세미나를 통해서 BLIP에 대해서, 그리고 이전 VLP 방법론의 흐름에 대해서도 알 수 있어 매우 좋았습니다. 동기 중 첫 발표라 긴장이 되었을 거 같지만 그럼에도 불구하고 좋은 발표 감사드립니다.


  • 2024-01-22 18:22

    금일 세미나는 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 논문을 바탕으로 진행되었습니다. 해당 세미나에서는 Vision-Language의 task에서 사용되는 Multimodal model들과 Dataset들을 전체적으로 다루어 주었습니다. 이때 기존 VL Model 들은 대부분 Encoder-based Model과 Encoder-Decoder Model로 나눌 수 있는데, Encoder-based model들은 Generation based task를 잘 수행하지 못하며, Encoder-Decoder Model은 Understanding based task를 잘 수행하지 못한다는 한계점이 존재했습니다. 또한, Data 역시 다량의 Noise가 존재할 수 있기에 학습에 최적의 데이터는 아님 역시 확인할 수 있었습니다. 이를 극복하기 위하여 최근 연구에서 Model 측면에서는 Multimodal Mixture of Encoder-Decoder(MED), data 측면에서는 Captioning and Filtering(CapFilt)라는 방법이 제안 되었다는 것을 확인할 수 있었습니다. 이때, 해당 논문에서 제안하는 BLIP은 Unimodal Encoder, Image-grounded Text Encoder, Image-grounded Text Decoder로 구성되어, Understanding 및 Generation task 기능을 모두 가지는 MED를 제안하고 있습니다. 가장 먼저 Unimodal encoder에서는 Image와 Text를 별도로 인코딩하는 과정을 거치고 있으며, 이후 Image-grounded Text Encoder를 통해서 Image representation과의 Cross-attention을 수행하고 있습니다. 마지막으로 Image-grounded Text Decoder에서는 기존 text encoder에서 사용하는 Bi-self attention이 아닌, causal self-attention을 이용하여, encoder와 동일하게 Image representation과의 cross attention을 진행해주고 있었습니다. 자세하게 Background를 구성해 주셨으며, 장표를 쉽게 이해하게끔 만들어주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2024-01-23 20:23

    본 세미나는 마민정 발표자님께서 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation" 이라는 논문을 바탕으로 진행해주셨습니다. 해당 논문은 멀티모달 사전학습 방법을 제시한 연구로, 이미지와 텍스트 간 관련성을 고려하여 학습합니다. ViT와 BERT를 사용하여 이미지와 텍스트를 각각 인코딩하고, 이후 Transformer의 self attention과 cross-attention을 통해 두 모달의 representation을 통합하는 형태 구조를 가지고 있습니다. 가장 중요한 건 unimodal encoder의 표현을 맞추는 itc loss, 이미지 기반 텍스트 인코더를 위한 ITM, 그리고 디코더를 학습하는 LM loss 이 3가지 단계라고 생각했고, 특히 Pseuto-target으로부터 학습하는 self-training 방법인 momentum distillation이 큰 성능 향상을 가져왔다고 생각합니다. 이 psuedo-target이 곧 이미지와 텍스트 간 관련성을 학습할 수 있는 target이 될 것이라고 생각했기 때문입니다. 뿐만 아니라 데이터 퀄리티가 모델 학습의 큰 영향을 미친다는 것을 CapFilt를 보고 깨달았습니다. 사실상 증강과 필터링을 적용한 것인데, 이 단순해보이는 구조가 큰 성능 향상 즉 고품질 데이터를 불렸다고 생각했습니다. 첫 세미나인데도 불구하고 멀티모달에 대해 구체적으로 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-01-23 22:06

    이번 세미나는 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation” 논문에 대해서 진행되었습니다. 이 논문은 웹 상에서 쉽게 구할 수 있지만 상대적으로 품질이 좋지 않은 데이터들을 정제하여 VLM 학습에 사용하는 프레임워크를 제안합니다. 이렇게 정제한 데이터와 양이 적지만 퀄리티가 높은 데이터셋을 함께 이용하여 3가지의 loss term ITC, ITM, LM을 이용하여 학습을 수행합니다. CLIP과 ALBEF에서 가져온contrastive learning 방법인 ITC, ITM과 함께, 텍스트 생성에 대한 loss term인 LM을 동시에 이용하여 이미지와 텍스트 간의 representation을 올바르게 align 되도록 학습합니다. 그리고 이러한 과정 중에, filter를 이용하여 텍스트에서 노이즈를 더욱 줄일 수 있도록 하고 있습니다. 본 논문은 여러 가지의 loss를 동시에 이용함으로써 각각의 장점을 살리며 단점을 보완하고 있다는 점이 흥미롭습니다. 하지만 그렇기 때문에 설명하기 까다로웠을 것 같은데, 친절하고 자세하게 잘 설명해주신 발표자님께 감사드립니다.


  • 2024-01-23 22:40

    이번 세미나는 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation을 주제로 진행되었습니다. BLIP은 Vision-Language 두 multimodal을 다루기 위해 제안되었습니다. 기존의 방법론들은 Generation-based Task가 어려운 encoder-based model 또는 understanding-based task가 어려운 encoder-decoder model 둘 중 하나를 기반으로 다루고 있었습니다. 제안하는 방법인 BLIP은 두가지 task 모두 잘할 수 있도록 MED(Multimodal Mixture of Encoder-Decoder)를 제안하였습니다. Unimodal encoder를 통해서는 image, text를 학습하며 둘 간의 관계성을 학습하고, Image-grounded text encoder를 통해서는 두 pair가 positive인지, negative인지를 예측, image-grounded text decoder를 통해서는 generation이 가능하도록 구성하였다는 점이 encoder-based, encoder-decoder model 두가지 구조를 잘 융합하였다고 생각됩니다. 추가로 CapFilt라는 방법을 제안하여 caption을 새로 생성하고 원본, 합성 텍스트에서 noise가 포함된 텍스트를 제거하는 방식으로 새로운 데이터 셋을 생성하여 성능 향상을 꾀하였습니다. 모델의 구조에서의 장단점을 비교하고 두 장점들을 잘 융합하려는 점이 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2024-01-23 23:22

    이번 세미나에서는 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation"에 대해 소개해주셨습니다. BLIP은 이미지와 텍스트 간의 관련성을 높이는 것에 초점을 둔 방법론이었습니다. 이를 위해 momentum distillation이라는 self-training 방법을 활용하고 있고, 이미지와 텍스트 간의 관련성을 효과적으로 학습할 수 있게 됩니다. 모델은 ViT와 BERT를 활용하여 이미지와 텍스트를 각각 인코딩한 뒤, Transformer의 self attention과 cross-attention을 이용하여 이를 통합하는 구조를 가집니다. 또한, unimodal encoder의 표현을 맞추어주는 ITC와 이미지 기반 텍스트 인코더를 위한 ITM, 그리고 디코더를 학습하는 LM loss를 활용하여 학습을 진행합니다. 첫 세미나임에도 불구하고, 논문의 핵심 아이디어와 이를 위한 background를 매우 체계적으로 준비해주셨고, 이를 차분히 전달해주시어 내용 이해에 도움이 되었습니다. 좋은 발표 감사드립니다.


  • 2024-01-23 23:41

    이번 세미나는 Vision-Language(VL)를 주제로 진행되었습니다. VL 모델은 대표적인 멀티모달(multi-modality) 형태의 데이터를 다루는 모델로 다양한 하위 과업(Downstream Task)이 가능합니다. 대표적으로는 Vision Question Answering, Vision Language Retrieval, Visual Captioning 등이 있습니다. VL 분야에서 핵심은 곧 이미지의 표현(representation)과 문자열의 표현을 같은 공간 안에서 얼마나 잘 학습시키느냐 일 것입니다. 이에 Vision-Language Pretraining(VLP)이 곧 VL 모델 발전의 중점적인 역할을 하게 되어 지속적으로 VLP 방법론들이 발전하고 있는 상황입니다. 발표자께서 소개하신 BLIP(Bootstrapping Language-Image Pre-training) 이라는 방법론 또한 pretraining의 한 방법론입니다. 모델 구조는 보기보다 간단합니다. 이미지 전용 인코더, 텍스트 전용 인코더 이미지 기반의 텍스트 인코더 및 디코더 등 크게 네 가지의 Transformer 모델로 구성되어 있습니다. 인상깊은 점은 텍스트 인코더 간에는 self-attention, 이미지 기반의 텍스트 인코더-디코더 간에는 cross-attention이, 그리고 이 세 모델 간에는 feed forward layer가 공유됩니다. 즉, 각각의 학습 정보를 모두 공유 하게 되는 효과를 얻게 됩니다. 이에 세 가지 손실함수 값을 이용해 학습을 진행합니다: Image-Text Contrastive Learning, Image-Text Multimodal(Image-Text 쌍의 실제 pair 여부 확인), LM(이미지-텍스트의 마스킹 단어 예측). 대부분의 아이디어는 ALBEF 라는 방법론에서 차용되었지만 본 방법론의 핵심인 CapFilt는 웹에서 수집되는 이미지-텍스트 쌍의 연관성을 더 높이도록 설계 되어 있습니다. Vision-Language 모델도 이제는 딥러닝 분야에서 반드시 알아두어야 하는 마치 필수 과목의 느낌이 된 듯 합니다. 재미있는 내용 준비해주셔서 감사합니다.


  • 2024-01-25 01:09

    이번세미나는 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation"에 대해 진행해주셨습니다. 발표자님께서 Vision-Language 모델의 한계를 극복하기 위한 BLIP의 혁신적인 접근 방식을 명확히 설명해주셨습니다. 특히, 이미지와 텍스트 간의 상호작용을 학습하는 Unimodal Encoder의 역할과 중요성에 대한 설명이 돋보였습니다. BLIP의 핵심 구성 요소인 Image-grounded Text Encoder와 Decoder의 설계 및 기능에 대한 깊이 있는 분석이 인상 깊었습니다. 또한, Momentum Distillation과 CapFilt의 적용으로 데이터 품질과 모델 성능이 어떻게 향상되는지에 대한 부분은 매우 흥미로웠습니다. 발표자님의 체계적이고 명확한 장표 사용은 복잡한 개념을 이해하는데 큰 도움이 되었습니다. 좋은 발표 감사합니다.


  • 2024-01-25 21:01

    이번 세미나에서는 "BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation"라는 논문에 대해 다루어주셨습니다. 해당 논문은 기존의 VL 모델이 understanding-based tasks 혹은 generation-based tasks 중 하나만 잘하는 점을 지적하며 둘 모두를 잘할 수 있도록 새로운 방법론인 BLIP를 제안했습니다. BLIP는 caption을 bootstrapping하여 사용함으로써 noisy web data를 효과적으로 활용하는 방법을 제시하였고, Multimodal mixture of Encoder-Decoder (MED) 구조를 통해 효과적으로 transfer learning이 가능한 구조를 설계하였습니다. MED는 Unimodal encoder, Image-grounded text encoder 그리고 image-grounded text decoder로 구성되어 학습시 각 부분 모델간의 정보가 반영되도록 설계함으로써 앞 서 언급한 두가지 tasks에서 모두 잘 작동할 수 있도록 하였습니다. 요즘 VL 모델들의 실제 성능을 보면 놀라운 경우가 많은데, 오늘 세미나를 통해 기존 모델들이 어떤 단점을 가지고 있는지 알 수 있었고 무슨 연구들이 진행되고 있는지 파악할 수 있어 좋았습니다. 좋은 발표 감사합니다.


전체 502
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10351
관리자 2020.03.12 0 10351
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8966
관리자 2020.03.12 0 8966
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10070
관리자 2020.03.12 0 10070
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (1)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 27
Doyoon Kim 2025.05.01 0 27
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (12)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 123
Sunghun Lim 2025.04.24 0 123
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (12)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 116
Suyeon Shin 2025.04.21 0 116
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (14)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 159
Woongchan Nam 2025.04.16 0 159
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (16)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 296
Kiyoon Jeong 2025.04.16 0 296
494
[Paper Review] Reasoning over Time Series with LLMs (15)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 333
Hyeongwon Kang 2025.04.09 0 333
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 323
Jaehyuk Heo 2025.04.02 0 323
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 325
Jaehee Kim 2025.04.02 0 325
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 273
Jungho Lee 2025.04.02 0 273
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 253
Hankyeol Kim 2025.03.25 0 253

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호