[Paper Review] FLAVA: A Foundational Language And Vision Alignment Model

Paper Review
작성자
subeen_cha
작성일
2025-03-14 23:17
조회
473
1. 논문 제목
2. Overview
  • unimodal(이미지/텍스트 이해)과 multimodal(이미지-텍스트 추론) 작업을 모두 효과적으로 수행할 수 있는 foundational vision-language model 제안
    • 기존 contrastive/masking/generative 학습 방식의 한계를 극복하기 위해 multimodal encoder를 도입하고, unimodal 및 multimodal 데이터를 모두 활용한 사전 학습 기법 제안
  • 이를 통해 다양한 vision/language/multimodal 벤치마크에서 강력한 성능을 보이며, zero-shot 및 fine-tuning 환경에서도 뛰어난 결과를 달성
3. 발표자료 및 발표영상
  • 발표자료 : 하단 첨부
  • 발표영상 :
    ">
전체 16

  • 2025-03-16 14:03

    이번 세미나에서는 기존 Vision-Language 모델이 가지는 한계를 극복하기 위해 새로운 접근 방식을 제안한 ‘FLAVA: A Foundational Language And Vision Alignment Model’ 논문에 대하여 발표해 주셨습니다. 기존 CLIP과 같은 Contrastive Learning 기반 모델이 Multimodal 데이터에서는 강력하지만 Unimodal 상황에서는 성능이 저하되는 문제를 해결하기 위해, FLAVA는 Multimodal Encoder를 도입하여 Unimodal과 Multimodal 학습을 통합적으로 수행할 수 있도록 설계했습니다. 또한, 단순한 Contrastive Learning이 아니라 Masked Modeling과 같은 다양한 학습 방법을 결합하여 더 강력한 표현 학습을 가능하게 하였습니다. 특히, Image Encoder, Text Encoder, Multimodal Encoder를 별도로 두어, Unimodal 학습과 Multimodal 학습을 독립적으로 최적화하면서도 최종적으로 융합할 수 있는 구조를 제시한 점이 매우 합리적이라고 생각합니다. 다만, 논문에서 제안한 학습 Objective가 많아 최적화를 균형 있게 수행하기 어려울 것이라는 점, 그리고 하나의 새로운 패러다임이라기보다는 기존 모델들의 장점을 조합한 접근이라는 점에서 혁신성이 다소 제한적이라는 느낌도 있었습니다. 그러나 Multimodal과 Unimodal 모두에서 강력한 성능을 목표로 하는 방향성과, 다양한 데이터 유형을 균형 있게 활용하여 일반화 성능을 높이려는 접근이 매우 인상깊었습니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2025-03-17 09:55

    이번 세미나에서는 "FLAVA: A Foundational Language And Vision Alignment Model" 논문에 대해 소개해주셨습니다. 해당 논문에서는 image 와 text에 대한 개별적인 encoder와 두 모달리티를 함께 반영하는 multimodal encoder까지 함께 학습에 활용하여 크게 masked image modeling(MIM), masked language modeling(MLM), 두 모달리티 간 contrastive learning을 적용한 NCE loss, masked multimodal modeling(MMM), image-text matchin(ITM)까지 loss에 함께 반영한 vision-language model을 제안합니다. 작성하다보니 정말 많은 loss를 한번에 학습에 활용하였는데 학습 과정에서 모든 loss가 정말 잘 안정적이게 수렴되는지 궁금함이 들었고 실험 과정에서 모델 파라미터에 대한 이야기가 없었는데 적은 데이터로도 기존에 더 많은 데이터를 학습하는 CLIP보다 더 나은 성능을 보인다고 했지만 모델 크기 측면에서 multimodal encoder가 있기 때문에 CLIP과 동등한 학습 파라미터 수를 기준으로 비교하였을 때 차이를 확인할 수 없어서 아쉬움이 있습니다. 2021년에 공개된 논문이기에 현재와 흐름이 다르지만 기존 vision-langauge model이 어떤 방식으로 연구되어왔는지 살펴볼 수 있는 좋은 시간이었습니다. 첫 세미나 준비하느라 수고 많으셨습니다. 좋은 발표 감사합니다.


  • 2025-03-18 11:05

    이번 세미나는 이미지-텍스트 쌍으로 대표되는 multi-modal 데이터셋과 이미지 / 텍스트 단일 modality로 구성된 데이터셋을 결합하여 학습해 다양한 modality에서 강력한 representation을 학습하는 범용 모델인 FLAVA를 제안한 “FLAVA: A Foundational Language And Vision Alignment Model”라는 논문에 대한 발표를 중심으로 진행되었습니다. 기존의 VLM은 학습 데이터의 구성, 모델 구조 등의 이유로 모든 vision-language task에 강건하게 성능을 보이는 것이 어려웠습니다. FLAVA의 경우 이러한 한계점을 개선하기 위해 multi-modal / uni-modal에 대해 각각 loss와 데이터셋을 구축해 학습을 진행하고, 이를 통해 광범위한 task에서 강건한 성능을 보여줍니다. 모델 구조에서 인상 깊었던 부분은 인코더를 구성함에 있어 uni-modal 각각의 인코더에 더해, uni-modal 인코더에서 추출한 representation을 활용해서 추가적인 학습을 진행하는 multi-modal encoder를 추가했다는 점입니다. 이로 인해 학습 loss의 개수가 좀 많아지긴 하지만 다양한 task에서 좋은 성능을 보인다는 점에서 좋은 contribution을 가지는 논문이라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-03-18 12:48

    텍스트와 이미지 등 근본적으로 다른 형태의 데이터들을 함께 학습하면서 unimodel에 대해서도 잘 동작해야 하는 멀티모달 모델들의 어려움을, 상당히 일반적인 방법론으로 극복할 수 있는 모델이 제안되었던 듯해 인상깊었습니다. MLM과 MIM를 이용한 텍스트와 이미지 인코더의 학습을 통해, 각각의 representation을 효과적으로 학습하면서도 global contrastive loss, MMM, ITM까지 반영하여 두 모달리티를 통합한 멀티모달에 적합한 representation을 구성하려는 논리에 쉽게 동의할 수 있었습니다. 처음에는 많은 loss term으로 인해 inductive bias가 상대적으로 강하게 반영되고, 모든 loss가 잘 수렴할 수 있을지 의문이 있었지만 foundational model로서 많은 데이터를 학습하면서 좋은 결과를 보인 것 같다고 생각했습니다. 비교적 일반적이고 익숙한 학습 방법들을 직관적으로 결합시킨 좋은 연구를 소개해주신 덕분에 재미있게 들을 수 있었습니다, 감사합니다.


  • 2025-03-19 10:32

    이번 세미나에서는 "FLAVA: A Foundational Language And Vision Alignment Model" 라는 논문을 소개해주셨습니다. Unimodal과 Multimodal 작업을 모두 효과적으로 수행할 수 있는 Foundation model을 제안한 논문이라 의미가 있었다고 생각합니다. Unimodal과 Multimodal 모두에서 좋은 성능을 보이기 위해 각각에 대해 데이터셋과 Loss를 다양하게 설계하여 학습한 것이 인상깊었습니다. 기존의 학습 방식의 한계를 극복하기 위해 Multimodal Encoder를 도입하고, 이를 통해 다양한 vision/language/multimodal 벤치마크에서 강력한 성능을 보이며, zero-shot 및 fine-tuning 환경에서도 뛰어난 결과를 달성했습니다. 말씀해주신 것처럼 기존의 좋은 성능을 보이는 모델들을 조합하여 모델을 만들었다는 점에서 창의적인 방법론이라고 볼 순 없더라도, 기존의 한계를 극복하기 위해 새로 데이터셋을 구축하고 여러 Loss를 사용했다는 점에서 좋은 접근이었다는 생각이 듭니다. 좋은 발표 감사합니다!


  • 2025-03-19 19:46

    이번 세미나에서 다룬 “FLAVA: A Foundational Language And Vision Alignment Model” 논문은 Unimodal과 Multimodal 작업을 통합적으로 처리하고자 하는 대표적인 시도를 잘 보여준 것 같습니다. Image Encoder와 Text Encoder를 통해 각각의 모달리티를 효과적으로 학습하면서도, Multimodal Encoder까지 활용해 두 모달리티 간 정보 융합을 수행한다는 점이 흥미로웠습니다. 특히, Masked Modeling(MLM/MIM), Contrastive Learning(NCE), Masked Multimodal Modeling(MMM), Image-Text Matching(ITM) 등 다양한 학습 손실을 동시에 반영해 범용적인 학습을 시도했다는 점이 인상적이었습니다. 다만, 한 번에 많은 종류의 학습 Objective를 적용하다 보니 학습 안정성이나 모델 최적화 과정이 얼마나 효율적으로 이뤄지는지는 좀 더 살펴볼 필요가 있어 보입니다. 그럼에도 Unimodal과 Multimodal 각각의 강점을 조합하여 다양한 벤치마크에서 의미 있는 결과를 달성했다는 점은 인상 깊었고, 향후 여러 모달리티가 혼합된 현실 데이터에도 큰 확장 가능성을 보여주는 것 같습니다. 좋은 발표 덕분에 Vision-Language 분야의 최신 경향을 잘 이해할 수 있었습니다. 감사합니다!


  • 2025-03-20 13:38

    이번 세미나에서는 "FLAVA: A Foundational Language And Vision Alignment Model" 논문을 통해 기존 Vision-Language 모델이 가진 한계를 극복하는 새로운 접근 방식을 살펴봤습니다. FLAVA는 Image Encoder, Text Encoder, Multimodal Encoder를 활용하여 Unimodal과 Multimodal 학습을 통합적으로 수행할 수 있도록 설계됐으며, Masked Modeling, Contrastive Learning, Image-Text Matching 등 다양한 학습 기법을 결합하여 강력한 표현 학습이 가능하도록 했습니다. 특히, 적은 데이터로도 기존 모델(CLIP)보다 우수한 성능을 보였다고 주장하지만, 모델 크기를 동일한 기준에서 비교한 분석이 부족한 점은 아쉬웠습니다. 다만, 다양한 모달리티를 균형 있게 활용하여 일반화 성능을 높이는 접근은 Vision-Language 연구에서 의미 있는 기여로 보이며, 향후 연구 방향에 대한 인사이트를 얻을 수 있는 유익한 발표였습니다.


  • 2025-03-20 21:44

    이번 세미나에서는 "FLAVA: A Foundational Language And Vision Alignment Model" 논문이 소개되었습니다. 이 연구는 언어와 시각 정보를 동시에 처리할 수 있는 모델을 개발하여 다양한 멀티모달 작업에서 활용할 수 있도록 하는 것을 목표로 했습니다. 기존의 멀티모달 모델이 특정 데이터셋에 최적화된 경우가 많았던 반면, FLAVA는 대규모 공개 이미지-텍스트 페어 데이터셋을 활용해 보다 범용적인 표현 학습을 가능하게 했다는 점이 인상적이었습니다.

    FLAVA는 이미지 인코더, 텍스트 인코더, 멀티모달 인코더로 구성되어 있으며, 이를 통해 개별 모달 학습뿐만 아니라 두 모달 간의 연관성을 효과적으로 학습할 수 있도록 설계되었습니다. 또한, 전역 대조 손실과 마스킹 멀티모달 모델링을 적용하여 이미지와 텍스트 간의 관계를 명확히 하고, 누락된 정보를 예측하도록 학습하는 방법을 도입했습니다.

    이 논문은 단일 모델이 이미지 분류, 텍스트 이해, 멀티모달 추론 등의 다양한 작업을 수행할 수 있도록 설계되었으며, 공개 데이터셋을 활용해 연구의 재현성을 높였다는 점에서 의미가 있습니다. 언어와 시각 정보를 효과적으로 통합하는 접근법을 제시한 연구로, 향후 멀티모달 AI의 발전에 기여할 것으로 기대됩니다. 좋은 발표 감사합니다!


  • 2025-03-24 10:16

    금일 세미나는 Vision-Language Foundation 모델의 구조와 학습 방법론을 제시한 "FLAVA: A Foundational Language And Vision Alignment Model"을 중심으로 진행되었습니다. 연구가 진행되던 당시에는 다양한 모달리티를 통합하는 방식이 제한적이었습니다. CLIP과 같이 representation 산출이후 align 하거나 특정 모달리티를 다루는 한계가 있었습니다. 이에 대해 해당 논문은 각 모달리티 별 인코더와 이를 통합하는 인코더 3개를 이용하여 학습하는 방식을 제안하고 있습니다. 특히, 각 모달리티 인코더가 충분히 학습될 수 있도록 masking 기반 학습을 적용하고, 두 모달리티 간 정보를 충분히 활용할 수 있도록 contrastive learning과 masking 기반 loss를 활용하고 있었습니다. 해당 논문의 주요 주장이 각 모달리티에 대한 능력을 확보하는 것이 중요하다는 데 있었던만큼 실험에서도 이에 대해 명확히 보여주고자 노력하였습니다. 최근의 multi modal 연구와 다른 방식으로 진행되었으나, 각 Encoder의 representation을 별도로 산출하고 이를 병합하는 방식이 최근까지도 널리 활용되는 만큼 초기 연구로서 중요한 지점들을 짚어주는 것을 확인할 수 있었습니다. 좋은 발표 감사합니다.


  • 2025-03-24 12:26

    이번 세미나에서는 텍스트-이미지 멀티모달 표현 학습을 위한 범용 모델을 제시한 논문인 FLAVA를 중심으로 진행되었습니다. FLAVA는 unimodal(텍스트 또는 이미지 단독)과 multimodal(이미지-텍스트 쌍) 데이터를 모두 학습하는 구조로, 이미지 인코더, 텍스트 인코더, 멀티모달 인코더로 구성됩니다. 학습 과정에서는 contrastive loss, masked modeling, multimodal matching 등 다양한 objective를 결합하여 강력한 표현력을 갖춘 모델을 학습하며, public dataset만으로 학습해 높은 데이터 효율성과 접근성을 보장합니다. 실험에서는 CLIP 등 기존 모델 대비 다양한 태스크에서 우수한 성능을 보였으며, 특히 MIM과 MLM을 포함한 복합 학습 objective가 모델 성능에 핵심적으로 기여함을 확인할 수 있었습니다.


  • 2025-03-24 13:07

    이번 세미나에서는 “FLAVA: A Foundational Language And Vision Alignment Model” 논문을 중심으로, 이미지와 텍스트 각각의 표현 학습뿐 아니라 멀티모달 정보를 통합적으로 다루기 위한 모델 구조와 학습 방식에 대해 발표해주셨습니다. 해당 연구는 Image Encoder, Text Encoder, Multimodal Encoder의 세 가지 인코더 구조를 기반으로, MLM, MIM, MMM, ITM, NCE 등 총 다섯 가지 학습 objective를 동시에 활용해 범용적인 표현 학습을 시도한 점이 인상적이었습니다. 다양한 loss를 함께 학습함에도 불구하고 각 모달리티별 표현 학습과 멀티모달 융합을 균형 있게 수행하려는 구조적 시도가 인상 깊었으며, CLIP 대비 적은 데이터로도 경쟁력 있는 성능을 보였다는 점도 주목할 만했습니다. 다만, 모델 규모나 학습 안정성에 대한 구체적인 비교나 분석이 부족했던 점은 다소 아쉬웠습니다. 초창기 멀티모달 foundation 모델의 접근 방식과 고민을 잘 이해할 수 있었던 의미 있는 발표였습니다. 감사합니다!


  • 2025-03-24 15:37

    이번 세미나에서는 “FLAVA: A Foundational Language And Vision Alignment Model” 논문을 소개해주셨습니다. 본 연구는 Vision과 Language의 통합 학습을 효과적으로 수행하기 위해 Image와 Text 모달리티를 개별적으로 처리하는 두 개의 Unimodal Encoder와 이를 통합하는 Multimodal Encoder를 제안하고 있습니다. 기존 CLIP과 같은 방식은 모달리티별 Representation을 산출한 이후에만 Align하는 한계가 있었으나, FLAVA는 Masked Modeling(MLM/MIM)을 활용해 각 모달리티 인코더를 충분히 사전 학습시키고, 이후 Contrastive Learning(NCE), Masked Multimodal Modeling(MMM), Image-Text Matching(ITM)과 같은 다양한 Objective를 병합하여 두 모달리티 간 융합을 강화한 점이 특히 흥미로웠습니다. FLAVA는 Unimodal과 Multimodal의 장점을 동시에 살려 여러 벤치마크에서 유의미한 성과를 거두었으며, 최근 연구에서도 꾸준히 활용되는 구조라는 점에서 큰 의미를 가진다고 생각됩니다. 좋은 발표 감사합니다.


  • 2025-03-26 23:52

    금일 세미나는 "FLAVA: A Foundational Language And Vision Alignment Model" 논문을 바탕으로 진행되었습니다. 제안 연구에서는 기존 VL model들이 특정한 하나의 modality나 task에 초점을 맞추고 있으며, Contrastive learning을 기반으로 하는 cross-modal이나 Transformer 모델의 cross-attention을 기반으로 하는 multi-modal 중 하나만 활용하는 상황을 한계점으로 말하고 있었습니다. 이에 모든 modalities에 한번에 target하는 foundation으로 single holistic universal model을 사용하자라는 관점에서 FALVA 모델을 제안합니다. 해당 모델은 각 unimodal의 정보를 잘 추출할 수 있도록 Image/Text 각각에 대하여 encoder를 사용하고 있으며, 인코딩 된 unimodal 이미지 및 unimodal 텍스트 표현들을 융합/정렬하여 추론에 활용하는 부분인 Multimodal encoder를 함께 사용하고 있습니다. 해당 object들을 모두 잘 학습하고자, 총 5가지의 Loss를 사용합니다. 이때, 이미지와 텍스트를 학습하기 위해서는 각각에 대해 Masked modeling을 수행하며, 각각 인코딩된 representation 간 유사도를 기반으로 contrastive learning을 수행하고 있습니다. 마지막으로 Multimodal Loss에서는 image encoder 및 text encoder에서 나온 representation을 fusion하여 학습하고자, 마스킹된 이미지 패치 및 텍스트 토큰을 복원하여 학습하고 있습니다. 마지막으로, image-text pair의 fusion representation을 활용해 매칭 여부 판단함으로써 multimodal encoder의 classifier를 학습합니다. 멀티모달에 관한 기본적인 내용들을 상기시키며, crossmodal과 multimodal의 정확한 차이를 알 수 있었습니다. 좋은 발표 정말 감사드립니다.


  • 2025-03-27 11:43

    이번 세미나에서는 "FLAVA: A Foundational Language And Vision Alignment Model" 라는 논문에 대한 소개를 중심으로 진행되었습니다. FLAVA는 기존의 Vision-Language 모델(VLM)이 multimodal 환경에서는 강력하지만 unimodal 환경에서는 성능이 저하되는 문제를 해결하고자 하는 연구였습니다. 이를 위해 unimodal 데이터(이미지 혹은 텍스트)와 multimodal 데이터(이미지-텍스트 쌍)를 모두 활용하여 모든 모달리티를 아우르는 universal model을 제시했습니다. 이 연구의 가장 인상 깊었던 부분은 MIM(Masked Image Modeling), MLM(Masked Language Modeling), MMM(Masked Multimodal Modeling) 등의 다양한 학습 방식을 혼합하여 representation 능력을 강화한 점이 뛰어났습니다. 하지만 너무 다양한 objective를 한 번에 다루면서 최적화 과정이 복잡해진다는 점은 아쉬웠습니다. 특히 모델 구조가 unimodal encoder와 multimodal encoder를 독립적으로 두고 후반부에서 결합하는 형태이기에, 전체적인 모델의 통합성과 학습 균형을 맞추는 것이 어려웠을 것으로 보입니다. 새로운 혁신적인 접근 방법이라기보다는 기존 모델들의 장점을 전략적으로 통합한 형태라는 인상이 강해, 근본적인 혁신성이 다소 부족하다고 느꼈습니다. 그러나 이러한 제한점에도 불구하고, 공개 데이터셋만으로도 높은 성능을 낸 점이나 어려운 최적화를 수행해냈다는 점에서 흥미롭게 들을 수 있던 연구였습니다. 기존에 Vision-Language 분야에 관심을 가져왔었는데, 해당 세미나를 듣고 해당 분야에 대한 관심도가 더욱 생겼던 세미나였습니다. 좋은 주제로 흥미로운 세미나를 준비해주셔서 감사합니다.


  • 2025-03-28 10:21

    이번 세미나에서는 "FLAVA: A Foundational Language And Vision Alignment Model" 논문을 소개해주셨습니다. FLAVA는 multimodal(이미지-텍스트 쌍) 및 unimodal(image/text only) 데이터를 결합하여 학습함으로써, 모든 모달리티에서 시각 및 언어의 강력한 표현을 학습하는 범용 모델이었습니다. 해당 발표를 들으며 MIM, MLM, MMM, ITM 등 여러 학습 Objective를 동시에 활용하여 범용적인 학습을 하고자 했다는 점에서 인상깊었습니다. 그러나 한계로 언급해주신 것과 같이 objective가 너무 많기에 균형을 잘 맞춰 학습하기에는 어려움이 존재할 것을 예상되기에 해당 부분이 한계점인 것 같습니다. 그래도 이전의 특정 모달리티와 테스크에 초점을 맞춤 모델들의 한계를 개선하기 위해 모든 modalities에 한번에 target하는 foundation으로 단일 universal model을 만들고자 했다는 점에는 그 기여도가 높은 논문인 것 같습니다. 좋은 논문 소개해 주셔서 감사합니다!


  • 2025-03-30 11:27

    이번 세미나에서는 Multimodal Foundation 모델인 FLAVA(Foundational Language And Visible Alignment Model)를 제안한 연구가 소개되었습니다. FLAVA의 주요점은 단일모달 및 멀티모달 모두에 잘 대응하는 foundation 모델이라고 볼 수 있습니다. 그러다보니 비교적 간단한 구조를 가지고 있습니다. 이미지 인코더, 텍스트 인코더, 멀티 인코더로 이루어져 있으며 필요한 상황에 따라서 인코더를 선택적으로 활용할 수 있습니다. 학습 방식도 충분히 합리적인 것 같습니다. 무엇보다 굉장히 많은 데이터셋에 대해서 실험을 진행한 점이 매우 인상적입니다. 논문이 발표된 시점에는 그렇게 많은 VLM 모델이 없었기 해당 모델의 variants 의 실험도 다양하게 진행한 듯 합니다. 유익한 발표 준비해주셔서 감사합니다.


전체 512
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10787
관리자 2020.03.12 0 10787
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9399
관리자 2020.03.12 0 9399
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10499
관리자 2020.03.12 0 10499
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (8)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 81
Minjeong Ma 2025.06.07 0 81
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 36
Minjeong Ma 2025.06.02 0 36
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 33
Kiyoon Jeong 2025.06.02 0 33
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 32
Woongchan Nam 2025.06.02 0 32
505
비밀글 [Rehearsal] 석사학위 논문심사 - 이상민 (21)
SangMin Lee | 2025.06.02 | 추천 0 | 조회 34
SangMin Lee 2025.06.02 0 34
504
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (11)
Siyul Sung | 2025.05.31 | 추천 0 | 조회 171
Siyul Sung 2025.05.31 0 171
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 232
Woojun Lee 2025.05.20 0 232
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 212
Jinwoo Park 2025.05.16 0 212
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im | 2025.05.15 | 추천 0 | 조회 192
Hun Im 2025.05.15 0 192
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 348
Junyeong Son 2025.05.08 0 348

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호