[Paper Review] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)

Paper Review
작성자
Minjeong Ma
작성일
2024-03-31 04:08
조회
2755
1. 논문 제목
  • LLaVA: Large Language and Vision Assistant, Visual Instruction Tuning (NeurIPS 2023 Oral)
  • 링크: 바로가기
2. Overview
  • Multimodal Instruction Follwing Capability 연구하기 위한 최초의 벤치마크 제안
  • Vision Encoder로는 CLIP, Language Decoder로는 Vicuna를 결합하여 Vision 및 Language가 통합된 LLaVA를 개발
  • Language만을 이해하는 GPT-4를 사용하여 Instruction-following이라는 새로운 데이터 셋을 생성함으로써 풍부하고 다양한
    Multi-modal 학습 데이터를 만들어내며 모델이 더 정교하게 시각적 상황을 이해하고 Language Instruction을 수행
  • Fine-tuning 시 Multimodal Chatbot 데이터 셋에서 뛰어난 Visual Chat Capability를, ScienceQA 데이터 셋에서 SOTA 달성
3. 발표자료 및 발표영상

[1] 발표자료: 하단 첨부
[2] 발표영상: ">바로가기
전체 16

  • 2024-04-04 14:46

    금일 세미나는 Text Instruction을 이용하여 Image를 이해하고 Description을 생성하는 Visual Instruction Tuning 방법론을 제안한 "Visual Instruction Tuning LLaVA: Large Language and Vision Assistant"를 중심으로 진행되었습니다. NLP 도메인에서 Instruction Tuning이란 사용자의 다양한 요청이 담긴 Instruction에 대응하여 모델이 적절한 출력을 산출하도록 학습하는 과정을 의미합니다. 이를 위해 다양한 Instruction 및 이에 대응하는 생성문이 학습 데이터로 필요하게 됩니다. Text-Vision 분야에서 역시 Instruction Following을 위해서 단일 이미지에 대해서 다양한 사용자 요청과 이에 대한 응답으로 구성된 학습 데이터가 필요합니다. 하지만 기존의 Captioning 데이터의 경우 단순 이미지 묘사로 사용자 요청이 반영되어 있지 않습니다. 데이터 생성을 위해 caption과 이미지 bounding box 좌표 등을 이용하여 단순 대화 및 추론 과정이 포함된 데이터를 생성하였습니다. 해당 데이터를 이용하여 CLIP Visual Encoder와 LLaMA를 학습하여 LLaVA를 학습할 수 있습니다. 이때, Visual Encoder와 Language Model의 Representation을 align하기 위해 단순한 projection layer를 사용하고 있는 특징이 있습니다. 그 결과 다양한 실험에서 기존의 Vision-Text 모델 대비 높은 성능을 기록하는 인상적인 모습을 보이고 있습니다. Visual Encoder에 대해서는 학습이 진행되지 않고, projection layer와 language model만 학습해도 높은 성능이 도출되는 모습을 통해서 두 모달리티의 연결에 있어 중요한 지점이 좋은 representation들을 잘 align하는 작업임을 알 수 있었습니다. 좋은 발표 감사드립니다.


  • 2024-04-04 23:40

    본 세미나는 LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)라는 Multimodal 모델에 대한 논문을 중심으로 진행되었습니다. 해당 논문에서 중요하게 다뤄지고 있는 점은, multi-modal instruction following 능력을 향상시키기 위한, 데이터셋을 제안했다는 점입니다. 기존 image captioning task 데이터셋은 단조롭다는 문제점을 바탕으로, instruction-following dataset을 생성하였으며 특히 image-text pair를 align 시키고자 Caption, Bounding boxes라는 captioning task에 적절한 요소들을 고려했다라는 것과 conversation과 detailed description, complex reasoning을 통해 데이터에 정보를 추가하였습니다. 학습 방법에서 흥미로웠던 점은, pre-training 단계에서는 trainable 파라미터만을 이용하여 align을 시켰다라는 점이고, fine-tuning 단계에서는 visual encoder의 weight는 고정하고 projection layer와 llm 모델의 weight를 업데이트 했다라는 점입니다. 현재로써는 왜 한 쪽만 하는지, 두 쪽을 동시에 하는지 백그라운드 지식이 부족해 이해가 되진 않지만 직관적인 방법과 다른 학습 방법을 통해 개선했기 때문에 좀 더 공부해서 파볼 필요가 있다고 느꼈습니다. LLaVA는 추후에 다른 VLM의 Background가 되는 경우가 많았는데, 오늘 세미나를 통해 유용한 논문을 알게 되어 흥미로웠습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-04-12 23:07

    해당 논문에서는 크게 사전 학습을 위한 데이터셋과 Visual Instruction Tuning 방법론을 제안하고 있습니다. Instruction Tuning이란 다양한 종류의 Task가 Text 형태로 정의되며 Instruction과 Output 쌍의 데이터셋을 통해 Fine-tuning을 하게 됩니다. Instruction이 포함된 Dataset을 구축하는 것이 중요한 부분이라 볼 수 있습니다. LLAVA논문에서는 Image-Text Pair 데이터를 ChatGPT 나 GPT-4에 적용할 수 없는 부분이 문제이며, Image Caption에 대한 설명 그리고 위치 정보인 Bounding Box를 Text 형태로 사용하는 방법을 제안합니다. 이미지 내에 존재하는 공간 정보를 최대한 텍스트로 변형하여 LLM의 input으로 사용한다는 점이 잘 와닿지는 않으면서도 Vision 과 LLM을 연결하려는 시도에 contribution이 있다 생각됩니다. 좋은 발표 감사합니다!


  • 2024-04-08 15:29

    금일 세미나는 LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) 논문을 바탕으로 진행되었습니다. 해당 방법론에서는 Visual instruction tuning 방법론을 제안하고 있습니다. 먼저 Instruction tuning이란 다양한 종류의 Task가 Instruction 형태로 들어 있는 Instruction, Output 쌍의 데이터 셋을 통해 Fine-tuning하는 Task로, Pre-trained model에 Prompt와 Completion 쌍의 데이터를 넣어 Supervised learning을 수행하는 것으로, 기존에 모델이 보지 못했던 Task에 대한 성능을 향상시키는 것을 목적으로 진행하게 됩니다. 결국 Instruction이 포함된 Dataset을 구축하는 것이 가장 중요한 부분 중 하나라고 볼 수 있는데, LLaVA에서는 Image-Text pair data를 기반으로 ChatGPT 및 GPT4를 활용하여 Instruction-following dataset을 생성하고 있습니다. 당시 GPT-4는 visual input을 받을 수 없는 상황이었기에 Visual content를 인지할 수 없는 문제점이 존재하였으며, 어떻게 Instruction-following dataset을 구성할 것인지에 대한 문제점이 존재하였습니다. 이때 해당 방법론에서는 Image caption에 대한 설명, 그리고 위치 정보인 Bounding box를 Natural language Input으로써 제공하여 Instruction-following dataset를 구성하였습니다. 이렇게 만들어진 dataset에서 Image data와 language Input에 각 modal에 맞는 Pre-trained model을 사용하여 학습을 진행하고 있습니다. 좋은 발표 정말 감사드립니다.


  • 2024-04-08 15:35

    이번 세미나에서는 LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)라는 연구에 대해 소개해 주셨습니다. 해당 연구에서는 논문 제목에서도 확인할 수 있듯이 VL model에서의 Instruction tuning에 관한 방법론을 제안하고 있습니다. Instruction tuning이란 다양한 종류의 Task가 Instruction 형태로 들어 있는 Instruction, Output 쌍의 데이터 셋을 통해 LM을 Fine-tuning 해주는 것입니다. 이를 통하여 Model은 보지 못한 Unseen task에 대해서 더 Generalize 될 수 있으나, 이를 진행하기 위해서는 Dataset을 만들기 위하여 많은 비용이 발생할 수 있습니다. LLaVA에서는 이러한 Instruction-following dataset 만들기 위하여 ChatGPT와 GPT-4를 이용하고 있습니다. 당시 GPT에서는 Visual Input을 받을 수 없었기에 Visual content를 인지할 수 있도록 Image의 Caption 정보, Bounding boxes의 위치를 함께 Input으로 사용하여 Conversation, Description, Reasoning의 data를 생성하여 사용합니다. 이렇게 생성된 Data는 각각 Pre-trained LLM과 Visual model을 통하여 Encoding한 후 LLM에 Input으로써 사용하여 최종적인 Output을 도출하고 있습니다. 발표자분이 모든 단계를 상세하게 잘 설명해주셨기에 이해가 수월했습니다. 좋은 발표 감사합니다.


  • 2024-04-11 22:08

    오늘 세미나는 "LLaVA: Large Language and Vision Assistant"와 Visual Instruction Tuning 논문을 중심으로 진행되었습니다. 해당 연구는 기존의 image captioning 데이터 셋의 한계를 넘어서, 사용자의 다양한 니즈를 충족시킬 수 있는 instruction-following dataset의 구축 과정과 이를 활용한 학습 방식을 주로 다루었습니다. 사전 학습된 model을 다양한 task에 활용하기 위해선 task를 설명하는 instruction과 output의 쌍을 활용하여 fine-tuning하는 단계가 필요합니다. 본 연구는 이러한 instruction-tuning에 사용되는 데이터 셋을 ChatGPT와 GPT-4로 제작하여 데이터 구축 cost를 매우 적게 사용하는 방식을 제안합니다. 구체적으론, 이미지의 Bounding 박스 위치, caption 정보를 GPT-4에 입력하여 Conversation, Description, Reasong이 담긴 data를 생성하여 데이터 셋을 구축합니다. 이후, frozen된 visual encoder와 LLM, Projection로 다양한 task에 대한 학습을 진행합니다. 본 논문의 궁극적인 목표는 LLM을 Vision쪽으로 align 시켜 VLM을 학습하는 데이터 셋과 방법론을 제시하는 것으로 보이나, 이후 ChatGPT에 Vision이 탑재되면서 다소 성능은 크게 밀리는 것이 아닌가 생각합니다. Open-source LLM을 학습시키는 용도로는 적합할 것 같으며, 너무나도 빠르게 변하는 LLM, 멀티모달 연구들을 지켜보며 참으로 새로운 아이디어를 선점하기 힘든 시기이구나 체감하였습니다. 좋은 발표 감사합니다.


  • 2024-04-12 09:19

    이번 세미나는 LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning) 연구를 주제로 진행되었습니다. 해당연구는 VL 모델에서 Instruction tuning이라는 새로운 접근법을 도입하여, Instruction과 Output이 쌍을 이루는 데이터셋을 통해 언어 모델을 세밀하게 조정하는 방식을 제시했습니다. 이 방법을 통해 모델은 본 적 없는 과제에 대해 더 넓게 일반화될 수 있는 능력을 갖추게 되지만, 적절한 데이터셋을 구축하는 데에는 상당한 비용이 들 수 있습니다. 지시 사항을 따르는 데이터셋을 만들기 위해 ChatGPT와 GPT-4를 활용하였고, 이 과정에서 시각적 입력을 받지 못했던 GPT의 한계를 극복하기 위해 이미지 캡션 정보와 경계 상자 위치를 활용했습니다. 생성된 데이터는 사전 훈련된 언어 모델과 시각 모델을 사용하여 인코딩되고, 이후 최종 출력을 위해 입력으로 활용됩니다. 발표자가 각 단계를 명확하고 상세하게 설명해 주셔서 이해하기가 쉬웠습니다. 좋은 발표 감사합니다.


  • 2024-04-12 20:09

    금일 세미나는 'LLaVA: Large Language and Vision Assistant"와 Visual Instruction Tuning'라는 논문을 소개해 주셨습니다. 해당 논문에서는 데이터셋 구축과 해당 데이터셋을 바탕으로 Pre-training, Fine-tuning 전략을 제시하고 있음을 알 수 있었습니다. 먼저 ChatGPT/GPT-4가 visual content를 인지할 수 없는 문제를 해결하고자 Caption과 Bounding box를 포함하여 Language-Only LLM이 인식할 수 있는 형태로 Image를 Encoding하는 전략을 제시하며 이후 Instruction-following의 형태로 Conversation, Detailed Description, Complex Reasoning을 추가적으로 생성하여 최종적으로 Dataset을 제안하는 형태로 마무리가 됩니다. 한편, Pre-training 과정에서는 Image feature와 Text feature 간의 결합에 단순 Linear layer를 사용하는 alignment 전략을 활용하며, Fine-tuning 과정에서는 Visual Encoder의 Weight는 고정하고 Language Model의 word embedding space와 동일한 차원을 갖는 Projection layer와 LLM 모델의 weight를 update하는 전략을 제시하고 있습니다. 해당 논문과 VLM 관련 논문들을 보며 VLM의 두 modal 간의 alignment로 단순 Linear layer만을 사용하는 전략을 많이 채택하고 있는데 이러한 전략을 채택하는데 있어 현실적인 한계점이나 VLM을 연구하는 입장에서 더욱 Focusing을 하는 부분이 어디인지 궁금했던 것 같습니다. 끝으로, 발표자분의 언어로 VLM 관련 연구들을 들을 수 있음에 감사했으며 발표자분의 VLM 관련 연구 또한 개인적으로 기대가 되었던 것 같습니다. 좋은 발표 감사합니다!


  • 2024-04-13 00:39

    오늘 세미나는 최근 Open-source 진영에서 준수한 성능으로 각광받고 있는 거대 언어 모델 Llama의 언어 능력을 VLM적으로 adapt하고자 했던 논문 "LLaVA: Large Language and Vision Assistant"와 Visual Instruction Tuning"를 중심으로 진행되었습니다. 기존의 VLM이 할 수 있었던 짧은 captioning등은 사실 단순 captioning 모델로서의 능력만 보여주었지, 실제 언어 모델이 특정 Instruction을 따를 수 있는 것처럼 이미지(Vision)에 대한 폭넓은 과업을 수행할 수는 없었다고 느껴졌습니다. LLaVa모델은 이미지와 언어 모두를 다루되, 언어 모델에서의 Instruction-Tuning된 이후의 과업을 수행하는 것처럼 디테일한 설명 등 다양한 과업을 다룰 수 있게 됩니다. 이를 위한 Synthetic Dataset을 구축하는 방법론이 이 논문의 핵심으로 느껴졌으며, 기존의 Captioning 데이터셋만 가지고도 간단하게 OpenAI API를 사용하여 데이터셋을 생성한다는 장점을 보여줍니다. 다만, 이 과정에서, 이미지를 받는 능력이 없었던 API에 이미지 정보를 주기 위해 Caption과 B-Box를 Input으로 넣어주는데, 언어모델에 단순히 B-Box를 넣어주는 것이 아니라, Rule-Based하게 B-Box를 자연어로 풀어주는(Ex. 일정 수치 이상 B-Box 상으로 겹치는 Object들이 있다면, 두 Object가 겹쳐있다는 자연어로 푸는 등)것이 더 좋지 않나 하는 생각이 들었습니다. 또한, 하나의 이미지에 대해 여러가지 Instruction-Input-Output 구조의 데이터 샘플이 많이 나오게 되는데, 이를 단순히 Image embedding 뒤에 concat을 하는 식으로 훈련을 진행하게 되고, 이렇게 되면 LLM의 Positional Embedding의 영향에 따라 자연스럽게 뒤에 있는 질문-응답에 대한 훈련 시 이미지 임베딩에 Attend를 덜 하게 될 수 밖에 없지 않나 하는 생각이 들었습니다. 하지만, Vision 분야에 Instruction Tuning을 하고자 한 첫 시도로써의 가치가 있는 논문이라는 생각이 들었고, VLM 자체가 생소했음에도 잘 설명해주셔서 재밌게 들을 수 있었습니다. 좋은 발표 감사합니다!


  • 2024-04-13 18:26

    이번 세미나에서는 "LLaVA: Large Language and Vision Assistant, Visual Instruction Tuning"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 본 논문에서는 Instruction Tuning을 시각적 정보를 활용하여 진행하는 Visual Instruction Tuning 방법론을 제안합니다. 기존에 사용되던 Instruction Tuning은 Task에 대한 정보가 포함된 Instruction과 그에 대한 Output을 쌍으로 사전 학습된 모델을 Fine Tuning 하는 방법입니다. 이를 VLM 모델에 적용하기 위해 Multimodal Instruction-Following Dataset 을 생성하여 모델이 시각적 상황에 대해 더 잘 이해하도록 하였습니다. Multimodal Instruction-Following Dataset 을 생성하기 위해 Image에 대한 Description과 Object의 위치 정보를 ChatGPT / GPT 4와 같은 LLM에 입력값으로 사용하였습니다. LLM의 입력값으로 Image를 Encoding 하지 못하는 문제를 해결하기 위해 Image Caption과 Object의 위치를 입력해 주어 Image 정보를 부여했다는 점이 기발하고 인상깊었습니다. 다만 개인적으로 관련 데이터셋을 모두 (58,000개의 Conversation, 23,000개의 Detailed Description, 77,000개의 Complex Reasoning) ChatGPT / GPT-4로 생성했다는 점이 비용적 측면에서의 절감을 크게 염두에 두지 않고 데이터를 생성했다고 느껴졌습니다. VLM에 대해 관심이 많은데, VLM 분야에서 많이 언급되는 LLaVA를 소개해 주셔서 유익한 시간이었습니다. 좋은 발표 준비해 주셔서 감사합니다.


  • 2024-04-14 19:09

    이번 세미나에서는 LLaVA: Large Language and Vision Assistant 라는 논문을 다루었습니다. 본 논문에서는 VLM을 학습하기 위한 데이터셋 구축 방법 및 데이터셋을 공개하고 Vicuna를 기반으로 학습된 LLaVA라는 모델을 제안합니다. 해당 논문에서는 Image captioning data를 사용하여 GPT-4를 통해 image-text pair의 데이터셋을 생성합니다. 이렇게 생성된 데이터셋은 instruction following 데이터의 형태를 띄고 있습니다. 모델 구조는 vision encoder는 clip, language decoder는 vicuna를 사용하고 linear layer만을 학습하여 두 modal간의 alignment를 수행합니다. 이렇게 학습된 모델은 대부분의 VLM task에서 매우 좋은 성능을 달성합니다. 크기가 작은 VLM이 어떤 식으로 학습되는지 알 수 있어 유익한 발표였던 것 같습니다. 좋은 발표 감사합니다.


  • 2024-04-14 23:35

    이번 세미나에서는 “LLaVA: Large Language and Vision Assistant, Visual Instruction Tuning”에 대해 소개해주셨습니다. 해당 논문에서는 LLaVA라는 vision encoder와 LLM을 결합한 구조를 갖는 Visual Question Answering task에 대한 방법론을 제안합니다. 우선 모델 학습을 위한 instruction-following 데이터를 구축하게 되는데, 이때 GPT-4에게 이미지 내의 각 개체를 bounding box로 표현한 좌표값과 이미지의 visual content에 대한 caption을 제공하여 이미지를 서술해달라는 질문(이미지 내의 객체에 대한 질문/이미지에 대해 상세히 설명)을 생성하게 됩니다. 사전학습 단계에서는 이미지 caption을 활용하여 visual tokenizer를 LLM에 호환 가능하도록 학습하게 되고, 미세조정 단계에서는 생성한 데이터를 이용하여 LLM model을 학습합니다. VQA라는 새로운 멀티모달 과업에 대해 접해볼 수 있었고, 개인적으로 굉장히 흥미롭게 들었던 것 같습니다. 좋은 발표 감사드립니다.


  • 2024-04-15 00:03

    이번 세미나에서는 최근 좋은 성능을 보여주고 있는 거대 Language Model인 Llama의 능력을 VLM에 적용시키는 새로운 모델인 LLaVA를 제시한 "LLaVA: Large Language and Vision Assistant"라는 논문을 중심으로 진행되었습니다. 해당 논문에서 중요하게 다루고 있는 것은 바로 Visual Instruction Tuning입니다. 먼저 Instruction Tuning이란, 다양한 종류의 Task가 Instruction 형태로 들어 있는 (Instruction, Output) 쌍의 데이터셋을 통해 LM을 Fine-Tuning하는 것을 말합니다. 즉, 이는 Pre-trained 모델에 Prompt와 Completion 쌍의 데이터를 넣어 Supervised Learning을 수행하는 것을 의미하며 이를 통해 Unseen Task에 대한 Zero-Shot 성능을 높일 수 있습니다. Instruction Tuning을 위해선 Instruction을 포함시킨 데이터셋을 구축하는 것이 중요한데, 해당 논문에서는 Image-Text Pair Data를 기반으로 GPT-4와 ChatGPT를 사용하여 이러한 데이터셋을 구축합니다. 당시 해당 모델들은 Visual Input을 받을 수 없었기 때문에 Visual content를 인지할 수 있도록 Image의 Caption 정보, Bounding boxes의 위치를 함께 Input으로 사용한다는 점이 흥미로웠습니다. 그러나 조금 아쉬웠던 부분은 역시 Vision과 LLM의 Alignment 과정에서 다른 Vision-Language Pre-Trained Model들고 비교했을 때 해당 논문에서 사용한 단순한 Linear Layer만을 적용하는 것은 약하다는 생각이 들었습니다. 그러나 새로운 방식으로 Vision과 LLM을 연결시키려는 시도 자체에 의미가 있었다고 생각하며, 향후 앞서 아쉽다고 느낀 Alignment 측면에서의 개선과 또 다른 방법론들이 어떻게 연구될지 흥미를 느낄 수 있었습니다. 좋은 발표 감사드립니다.


  • 2024-04-15 20:09

    이번 세미나에서는 "LLaVA: Large Language and Vision Assistant, Visual Instruction Tuning"에 대한 다양한 관점에서의 리뷰가 제공되었습니다. 논문은 Instruction Tuning을 시각적 정보를 활용하여 진행하는 Visual Instruction Tuning 방법론을 소개하고, 이를 위해 Multimodal Instruction-Following Dataset을 생성하는 과정을 설명합니다. 특히, Image Caption과 Object의 위치를 활용하여 이미지를 설명하는 방법은 기존의 접근과는 다소 차별화된 접근으로 보입니다. Llava같은 경우는 개인적으로나 함께 프로젝트를 수행할 때 써 본 모델인데, 이렇게 자세한 설명을 들으니 더욱 이해가 잘 되는거 같습니다. 좋은 발표 감사드립니다.


  • 2024-04-12 12:54

    이번 세미나는 “Visual Instruction Tuning LLaVA: Large Language and Vision Assistant” 주제로 진행되었습니다. 이 연구는 텍스트 명령을 사용해 이미지를 이해하고 설명하는 Visual Instruction Tuning 방법론을 제안합니다. NLP 도메인에서 Instruction Tuning은 사용자의 다양한 요청에 대응하도록 모델을 학습하는 과정입니다. 텍스트-비전 분야에서도 다양한 사용자 요청과 응답으로 구성된 학습 데이터가 필요합니다. 기존의 이미지 캡셔닝 데이터는 단순한 이미지 묘사만 포함하여 사용자 요청을 반영하지 못했습니다. 이를 해결하기 위해 이미지 캡션과 바운딩 박스 좌표를 이용하여 대화 및 추론 과정이 포함된 데이터를 생성했습니다. CLIP Visual Encoder와 LLaMA를 사용해 LLaVA를 학습하였으며, Visual Encoder와 Language Model의 표현을 정렬하기 위해 간단한 프로젝션 레이어를 사용했습니다. 결과적으로 다양한 실험에서 기존의 비전-텍스트 모델보다 높은 성능을 기록했습니다. Visual Encoder를 학습하지 않고도 프로젝션 레이어와 언어 모델만으로도 높은 성능을 달성할 수 있음을 보여주어 두 모달리티 간의 연결이 중요한 지점임을 확인할 수 있었습니다. 좋은 발표 감사합니다.


  • 2024-04-25 13:32

    이번 세미나는 "LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)" 논문에 대하여 소개해주셨습니다. LLaVA는 LLM 모델에 이미지 정보를 같이 학습하여 이미지와 언어 정보를 함께 다룰 수 있는 방법론으로 VQA와 같은 다양한 multimodal task에서 사용되고 있습니다. 해당 모델은 사용해본적만 있고 방법론에 대해서는 잘 알지 못했는데 이번 시간을 통해 학습 과정에 대한 내용을 자세히 설명해주셔서 도움이 많이 되었습니다. 특히 학습데이터를 구성하는 단계에서 instruction tuning을 위한 데이터 구성을 위해 이미지의 정보를 text로 변환하여 GPT4를 통해 생성하는 과정이 인상 깊었습니다. 좋은 발표 감사합니다.


전체 502
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10411
관리자 2020.03.12 0 10411
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9031
관리자 2020.03.12 0 9031
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10126
관리자 2020.03.12 0 10126
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (3)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 53
Doyoon Kim 2025.05.01 0 53
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (13)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 139
Sunghun Lim 2025.04.24 0 139
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (15)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 126
Suyeon Shin 2025.04.21 0 126
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 170
Woongchan Nam 2025.04.16 0 170
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 314
Kiyoon Jeong 2025.04.16 0 314
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 348
Hyeongwon Kang 2025.04.09 0 348
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 337
Jaehyuk Heo 2025.04.02 0 337
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 334
Jaehee Kim 2025.04.02 0 334
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 283
Jungho Lee 2025.04.02 0 283
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 259
Hankyeol Kim 2025.03.25 0 259

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호