[Paper Review] How Do Vision Transformer Work?

작성자
Seungwan Seo
작성일
2022-05-26 06:09
조회
4522
1. 발표 주제: ViT와 CNN을 비교함으로써 ViT가 가지고 있는 특성들을 파악함

2. Overview
  • ViT가 CNN에 비해 shape bias가 높으며 global information을 더 많이 고려함
  • ViT는 CNN에 비해 saddle point가 많아 학습이 어려움
  • ViT는 long-range dependency problem을 해결한 것이 아니라, 데이터의 특성을 따름
3. 발표자료 및 발표영상
  1. 발표자료 : 하단 첨부
  2. 발표영상 : ">Youtube link
4. 참고 문헌
  1. Are Convolutional Neural Networks or Transformers more like human vision?
  2. Do Vision Transformers See Like Convolutional Neural Networks?
  3. Intriguing Properties of Vision Transformers
  4. How Do Vision Transformers Work?
전체 19

  • 2022-06-06 22:07

    이번 세미나는 ViT의 특성들을 다루는 논문들을 주제로 진행되었습니다. 크게 4가지 논문을 통해 ViT와 CNN을 비교하는 식으로 진행되었습니다. 첫번째는 shape bias로 이전 세미나들에서도 몇번 다루었던 내용이었습니다. 로컬한 영역을 주로 다루는 CNN보다 patch와 attention을 통해 global을 학습한 ViT가 shape bias가 높았습니다. 두번째는 ViT와 CNN의 representation 유사도를 비교하였습니다. ViT의 경우 모든 layer에서 uniform한 형태를 지녔으나 CNN의 경우 lower layer와 higher layer에서 명확한 차이를 보였습니다. 이를 통해 ViT가 higher layer에서 CNN이 고려하지 못하는 정보를 포함함을 확인 할 수 있었습니다. 세번째는 patch drop, image shuffling 등을 적용한 이미지로 부터 강건한지 확인하였습니다. 결과적으로 CNN은 적은 정보 손실에도 정확도가 크게 떨어졌으나, ViT는 강건함을 확인할 수 있었습니다. 마지막으로 네번째는 여러 설정에 따른 ViT의 loss function의 모습을 비교하였습니다. 컴퓨터 비전을 연구분야를 하지 않는 사람으로써 ViT가 CNN 보다 성능으로 그냥 더 좋다고만 알고 있었는데 그 이유 및 강점에 대해서 자세히 알게된 계기가 된 것 같습니다. 좋은 발표 감사합니다.


  • 2022-08-05 19:14

    본 세미나는 “How Do Vision Transformer Work?”라는 주제로 ViT에 대한 매우 세부적인 접근을 다루는 내용들로 진행되었습니다. ViT가 갖는 특성들을 보다 세분화해 살펴보기 위해 CNN과 직접적인 비교를 토대로 진행하였습니다. ViT와 CNN 간 비교는 매우 저도 궁금했던 부분이었지만, 어느 하나 확실하게 실험을 통해 객관에 가까운 증명 혹은 설명을 해놓은 자료를 확인하기 어려웠습니다. 하지만 본 세미나를 통해 보다 이 부분을 해소할 수 있었습니다. 기본적으로 ViT가 shape bias가 높고, global 정보를 잘 학습한다는 점이 인상 깊었습니다. DifferNet등의 pretrained CNN기반 anomaly detection 방법론들의 실험 결과를 보면, ViT 계열 보다는 CNN 기반의 feature extractor가 보다 global, local information을 잘 추출해내는 것으로 생각할 수 있었습니다. 하지만 무조건 그렇다는 생각보다는, 본 연구에서 지적한 것과 같이 ViT의 레이어들을 잘 조합하는 식의 접근 혹은 보다 정교한 구성으로 ViT를 활용한다면 더욱 좋은 효과를 낼 수 있지 않을 까 하는 생각을 할 수 있었습니다. 정말 인사이트가 많고 깊은 좋은 발표였다고 생각합니다. 좋은 발표 감사합니다.


  • 2022-06-07 19:44

    이번 세미나에서는 How Do Vision Transformers Work?을 포함한 4개의 ViT 관련 논문을 다루어 주셨습니다. 우선 ViT와 CNN 계열의 모델들을 비교해보면 ViT의 경우 모든 layer에서 uniform한 형태를 지니나 CNN은 layer에 따라 차이를 보였습니다. 또한 ViT는 대용량의 데이터를 필요로 하고 CNN보다 모든 레이어에서 분류 성능이 높은 모습을 보였습니다. Random, Salient, Non-Salient 등의 Patch drop을 통해 occlusion을 만들어낸 경우 ViT 계열 모델들이 CNN 기반 모델들보다 robust한 결과가 나왔습니다. Positional encoding이 있는 상황에서는 grid size가 커질수록 accuracy가 떨어지는 것을 확인할 수 있었습니다. 추가적으로 여러 block의 결과를 함께 사용하는 것이 성능 향상에 도움이 되는 것을 볼 수 있었습니다. 여러개의 논문을 엮어 흐름을 잘 잡아주셔서 ViT에 대해 많은 것을 알아갈 수 있었습니다. 좋은 발표 감사합니다!


  • 2022-06-08 11:05

    이번 세미나는 이미지 분야에서 널리 활용되는 ViT 모델의 동작원리에 대해 분석하는 논문들을 중심으로 진행되었습니다. 특히 ResNet과 ViT를 비교하면서 진행되었습니다. 크게 ResNet은 local 정보에 집중하는 반면 ViT는 모든 패치에 접근이 가능하기 때문에 global한 정보에 집중하는 모습을 보였습니다. 또한, ViT는 ResNet보다 학습을 위해 많은 데이터가 필요하지만 분류에 있어 높은 성능을 보였습니다. 이와 더불어 Occlusion 등 이미지에 왜곡을 가한 경우에 ResNet은 local한 정보에 집중하기 때문에 성능이 쉽게 떨어지는 반면, ViT는 비교적 robust한 모습을 보였습니다. 이외에도 ViT의 각 sub layer 별로 분석해보면 초반의 self attention 레이어는 conv레이어처럼 작동하는 모습을 보이기도 했습니다. ViT에 대해 아직 익숙치 않아 이해가 부족한 상황에서도 자세한 설명과 함께 설명해주셔서 모델에 대해 더욱 이해할 수 있었던 시간이었던 것 같습니다. 감사합니다!


  • 2022-06-08 19:49

    이번 세미나는 "How Do Vision Transformer Work?”라는 주제안에 ViT와 관련된 4개의 논문들을 통해 ViT가 가지는 특성을 알아볼 수 있는 시간이었습니다. 가장 먼저 Are Convolutional Neural Networks or Transformers more like human vision? 라는 논문을 통해 patch와 attention을 통해 global feature를 학습하는 ViT가 local 단위로 학습하는 CNN 보다 Shape Bias가 높다는 사실을 확인할 수 있었습니다. 두 번째로 소개해주신 Do Vision Transformers See Like Convolutional Neural Networks? 논문을 통해 ViT와 ResNet의 직접적인 비교를 통해 ViT의 상단 layer에서는 ResNet이 고려하지 못하는 정보를 포함하는 것을 확인할 수 있었습니다. 세 번째로 소개해주신 Intriguing Properties of Vision Transformers 논문을 통해 Patch Drop을 적용한 이미지나 셔플링된 이미지에 대한 ResNet, ViT 등의 모델의 robust한 성능을 확인할 수 있었습니다. 마지막으로 소개해주신 How Do Vision Transformers Work?에선 ViT와 ResNet을 다양한 실험을 통해 비교해보며 ResNet과 ViT가 보이는 다른 경향을 확인해볼 수 있었습니다. 4개의 논문을 하나의 흐름 안에 깔끔하고 논리 정연하게 발표하기 위한 발표자분의 정성이 느껴지는 너무 좋은 발표였습니다. 좋은 발표 감사합니다!


  • 2022-06-09 01:25

    이번 세미나에서는 Vision Transformer 를 해석적인 부분을 다루는 주제로 How Do Vision Transformer Work? 라는 논문 과 추가적인 논문을 정리하였습니다. 개인적으로 Grid 를 여러개로 쪼갯을 때, poisitional Encoding 의 여부에 따라 성능차이가 더 많이 나지 않을까 생각했는데, 차이가 없었다는 점이였는데, 이를 통해 pe 보다는 적절한 grid 생성이 중요하다 생각하게 되었습니다. 이는 image 데이터의 pixel 간의 공간적 거리와 유사도 측면에서 생각해보면, 현재 pe 를 통한 거리가 이를 충분히 반영해 주지 못한다고 생각합니다. 하지만 또 일일이 patch 마다간의 거리를 계산하기도 쉽지않으니, 여전히 이미지간의 거리를 계산하는 방식에 대한 연구 그리고 이를 적용하면 또 좋은 연구가 될 것 같습니다. 생각을 많이하게 하는 발표여서 재밌게 들을 수 있었습니다. 감사합니다.


  • 2022-06-09 21:00

    이번 세미나에서는 How Do Vision Transformer Work? 이라는 주제로 4가지 논문을 함께 소개해 주시며 ViT의 다양한 특징에 대해 설명해 주셨습니다. 특히 Vision Transformer와 CNN을 비교하여 작동원리를 설명해 주셨는데, 소개해 주신 각 논문들에서 알 수 있었던 점은 다음과 같습니다. "ViT가 CNN 대비 shape bias가 높다. Representation Similarity, Mean Distance 등의 지표를 살표보면 ViT와 CNN이 확실히 다른 특징을 보인다. Patch Drop, Shuffled Image 등의 Occlusion에 대해 ViT가 더 강건한 성능을 보인다." 특히 이번 세미나의 제목이기도 한 마지막 How Do Vision Transformer Work? 논문에서는 ViT와 ResNet 모델의 Loss Function을 시각화를 통해 다른 점을 직접 보여준 것이 인상적이었습니다. 하나의 모델 구조에 대해서 이렇게 깊이 탐구한 것이 매우 흥미로웠고, 본인도 본받아야겠다는 생각을 했습니다. 워낙 많은 논문과 내용이 짧은 시간에 설명되어 어려움은 있었으나, 그만큼 많은 것을 배운 세미나였습니다. 좋은 발표 감사합니다.


  • 2022-06-11 20:16

    이번 세미나에서는 ViT와 CNN을 비교하는 "How Do Vision Transformers Work?"라는 논문을 위주로 다양한 관점에서 ViT의 특성을 분석하는 발표를 진행해주셨습니다. Texture bias는 CNN이 사전학습 과정에서 갖게 되는 특징이라고 할 수 있는데, ViT는 여러 실험 결과를 통해 CNN에 비해서는 shape bias에 좀 더 치우쳐져 있다는 것이 뒷받침되고 있는 것 같습니다. 특히나 두번째 논문에서 feature map 간 유사도를 통해 비교한 결과가 굉장히 흥미로웠습니다. CNN은 과거 연구에서 밝혀진대로 계층에 따라 반영하는 의미론적인 depth가 깊어진다고 보면, ViT는 이와는 많이 다른 특성을 갖게 됩니다. Inductive bias나 global attention을 수행한다는 구조적인 관점에서 ViT는 결국 이미지라는 도메인 특성보다는 데이터의 특성을 좀 더 반영하게 되는 것이 아닌가 생각됩니다. 기조가 다른 두 모델 간의 관계를 이렇게 자세히 엮어서 설명해주신 점, 그리고 인사이트가 매력적이었습니다. 앞으로도 좋은 발표 기대하겠습니다.


  • 2022-06-15 14:48

    이번 세미나에서는 How Do Vision Transformer Work?라는 논문을 통해 Vision Transformer의 여러 특성을 확인해보는 시간이었습니다. 이미지 처리에 있어서 CNN은 local한 영역의 특징을 추출하는 반면, ViT는 patch 단위의 attention을 사용하여 global한 정보를 모두 고려하며, 여러 실험을 통해 CNN은 texture bias, ViT가 shape bias가 크다는 사실이 밝혀졌다는 정도로 알고 있었는데, 이번 세미나를 통해 이 외의 여러 특징들을 자세히 알 수 있어 뜻깊은 시간이었습니다. 특히 두번째로 소개해주신 논문에서 CNN과 달리 ViT는 모든 layer에서 feature map 간의 유사도가 uniform하다는 것이 제가 생각한 것과 달라 기억에 남습니다. 종합적으로 봤을 때 ViT가 데이터 등 여러 특성에 더 강건한 성능을 보였기 때문에 앞으로도 활발히 연구될 것으로 보여집니다. 좋은 발표 감사합니다.


  • 2022-06-19 16:35

    금일 세미나는 “How Do Vision Transformer Work?” 이라는 주제에 대해 소개했습니다. ViT 등장 이후로 기존 대표적인 이미지 학습 방식인 CNN과의 다양한 비교가 수행되고 있습니다. 최근에 열린 ICLR 2022를 기점으로 어느정도 두 방법에 대한 비교 실험 연구가 정립된 느낌이 듭니다. 저 또한 관련 주제로 진핸한 연구가 있기 때문에 참고 자료로써 많은 도움이 되었습니다. 좋은 발표 감사합니다.


  • 2022-06-28 16:43

    금일 세미나는 “How Do Vision Transformer Work?”를 포함하여 관련된 논문 3편에 대한 리뷰로 진행되었습니다. 기존 컴퓨터 비전에서 많이 활용되어왔던 CNN과 2020년부터 연구가 활발히 진행되고 있는 Vision Transformer(ViT) 간의 차이에 대해 알 수 있었습니다. 가장 인상적이었던 차이는 다음과 같습니다. 먼저, 각 모델은 이미지 분류에 취약한 bias 종류에 차이가 있습니다. Stylized ImageNet으로 실험한 결과, CNN이 texture bias가 높고, ViT는 shape bias가 높다는 특성을 가집니다. 두번째로 상/하위 layer로부터 도출된 feature map간의 공유된 정보량에 차이가 있습니다. CKA는 representation similarity를 측정하기 위한 지표로서, 서로 다른 layer에서 도출된 feature map의 gram matrix를 의미합니다. CKA로 CNN과 ViT를 평가해본 결과, CNN은 하위 layer와 상위 layer에서의 차이가 명확하게 나지만, ViT는 layer 전반에서의 feature map 간의 정보가 공유하고 있음을 확인할 수 있었습니다. 개인적으로 읽어보고 싶었던 논문이었는데, 논문 내에 많은 실험과 선행연구들을 잘 정리해주셔서 이해하기 좋았습니다. 유익한 발표 감사합니다.


  • 2022-06-01 23:08

    금일 세미나는 "How Do Vision Transformer Work?"라는 주제로 진행되었습니다. 본 발표에서는 ViT와 CNN의 비교를 통해 ViT의 특성을 파악한 연구들이 소개되었습니다. CNN 모델들이 발전하면서 CNN이 feature를 추출하는 방식을 설명하기 위한 연구가 발전한 것처럼 ViT가 발전함에 따라 ViT의 특성을 파악하기 위한 연구들이 제안되는 것 같다는 생각이 들었습니다. 개인적으로는 모델의 설명력에 관심이 많기 때문에 이와 같은 연구들이 ViT의 설명력이 필요한 분야에서 잘 활용될 수 있을 것 같다는 생각이 들어 반가웠습니다. 오늘 발표에서는 총 4개의 연구가 소개되었는데 개인적으로는 ViT가 CNN에 비해 saddle point가 많아 학습이 어렵다는 부분이 가장 흥미로웠습니다. Transformer의 학습이 어려운 경우가 종종 발생하는데, 해당 발표를 통해 그 부분이 데이터의 문제가 아닌 loss function의 특징 때문일 수도 있다는 생각이 들었습니다. 또한, loss function의 특징에 대해 온전하게 파악하는 것이 어렵다고 생각하는데 이 부분을 파악하고 실험적으로 증명한 점이 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2022-06-02 21:38

    이번 세미나에서는 How Do Vision Transformers Work? 라는 주제가 다뤄졌습니다. 첫번째 파트에서는 shape와 texture bias와 관련한 실험을 보여주었으며 vit가 cnn 대비 shape bias가 높음을 보여주었습니다. 두번째 파트에서는 representation similarity, mean distance 등의 지표를 통해 locality 측면에서의 ViT와 CNN의 특징을 설명해주셨습니다. 세번째 파트에서는 Patch drop 과 Patch size에 관한 실험을 통해 ViT의 강건성을 보여주었습니다. 마지막 파트에서는 MSA는 low pass filter이고 cnn은 high pass-pass filter임을 layer별로 plotting한 실험이 인상깊었습니다. 많은 실험을 짧은 시간에 공유해주셨는데, 세부 주제로 파트를 나누어 다양한 시각자료와 함께 설명을 잘 해주셔서 재미있게 들을 수 있었습니다. 내부적으로 어떠한 특징으로 모델이 동작하는 것인지, 왜 좋은 성능을 내는지 등, 평소 궁금했던 점들을 다각도로 분석하는 연구를 접할 수 있어 유익했습니다. 좋은 발표 감사합니다.


  • 2022-06-02 22:29

    이번 세미나에서는 Vision Transformers가 어떻게 작동하는지에 관하여 설명해 주셨습니다. 총 4가지의 논문을 다뤄 주셨는데, 이전에 한번 언급했던 논문도 다시 설명해 주셔서 따라가는 데 어려움이 없었습니다. 첫번째로 다룬 논문은 “Are Convolutional Neural Networks or Transformers more like human vision?”로, VIT가 CNN 대비 shape bias가 높음을 실험을 통해 보여주었습니다. 두번째 논문은 “Do Vision Transformers See Like Convolutional Neural Networks?”로 VIT가 CNN과 비슷하게 보는 지 representation similarity(CKA&HSIC)와 mean distance를 통해 확인하고자 한 논문입니다. 해당 논문은 둘의 차이가 극명한 것을 보이며, 각각의 특징에 대해서 설명해 주셨습니다. 세번째 논문은 “Intriguing Properties of Vision Transformers”로, occlusion(path drop, shuffled image)에 대해 어떤 모델이 더 성능이 잘 나오는지 확인하고자 합니다. 마지막 논문은 “How Do Vision Transformers Work?”로, 다양한 실험들을 통해 어떻게 vision transformer가 작동하는 가를 정리한 논문이었습니다. 짧은 시간 안에 다양한 흥미로운 연구들에 대해 알 수 있어서 매우 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2022-06-04 16:20

    이번 세미나에서는 Vision Transformer(ViT)의 여러가지 특성에 대해서 살펴보는 시간을 가졌습니다. 총 4편의 논문을 준비해주셔서 요약 설명을 해주셨습니다. 결론적으로 ViT와 CNN의 비교를 통해 ViT의 특징을 확실히 알 수 있었습니다. 첫 번째 논문은 Are Convolutional Neural Networks or Transformers more like human vision?의 제목이며 ViT가 CNN보다 shape bias가 존재함을 실험을 통해 보여주었습니다. 두 번째 논문인 Do Vision Transformers See Like Convolutional Neural Networks? 에서는 ViT와 ResNet의 비교를 통해 layer의 feature map 간의 유사도를 측정 및 비교 해보았습니다. 세번째 논문의 제목은 Intriguing Properties of Vision Transformers며 해당 논문을 통해 Patch Drop, Image shuffling 등을 적용한 이미지에 대해서 모델의 성능의 강건함을 확인해보았습니다. 마지막으로 소개된 논문인 How Do Vision Transformers Work?에서도 역시 ViT와 ResNet을 비교하며 loss function의 모습이 어떻게 다른지 시각적으로 보여주었습니다. ViT에 대해서 정말 깊이 이해하고 계시는 것이 대단하신 것 같습니다. 덕분에 정말 유익한 정보 알게 되었습니다. 감사합니다.


  • 2022-06-05 14:51

    본 세미나는 마치 ‘Attention’의 설명력 여부를 확인하는 논문들과 같이, ViT와 기타 비전 분야에서 활용하는 Baseline 모델들간의 비교, 그리고 행동 패턴 등을 네 가지 논문을 통해 파악하는 시간이었습니다.
    1. ViT가 CNN보다 Texture 대신 사물의 모양으로 판단하는 Shape Bias가 높음
    2. ViT와 CNN이 사물을 바라보는 방식이 유사한 지 실험: 각 모델들의 Hidden Representation의 유사도와 Mean Distance를 측정하여 얼마나 다른지 파악하여, 층마다 어떤 정보를 포함하는 지 정리
    3. 이미지의 손상이 발생하더라도 ViT가 Robust하게 예측을 하는 지 파악하여 CNN 기반 모델들을 정보 손실이 적어도 성능 하락 폭이 큼을 정리
    4. CNN, Local, Global MSA를 활용하는 모델들을 비교하여 ViT의 학습 양태를 정리
    자신이 활용하고자 하는 모델의 속성을 파악하는 재미있는 연구이며, 새로운 것을 개발함에 있어 반드시 필요한 절차였다고 생각합니다. 좋은 발표 감사합니다.


  • 2022-06-05 15:50

    본 세미나에서는 How Do Vision Transformer Work? 라는 논문에 대한 리뷰를 진행하였습니다. ViT와 CNN을 비교하가며 ViT의 특성에 대한 내용들을 하나씩 소개 시켜주는 구조로 진행되었습니다. 총 4개의 논문을 통해 ViT가 가지는 특성들을 살펴보는 방식으로 세미나가 진행되었고 각 논문들의 핵심내용을 정리하여 보여주셔서 흐름을 잡기가 쉬웠습니다. 각 논문 별로 핵심 내용을 살펴보면 다음과 같습니다.
    1. Are Convolutional Neural Networks or Transformers more like human vision? : ViT가 CNN 보다 Shape Bias가 높음을 실험적으로 확인하였습니다.
    2. Do Vision Transformers See Like Convolutional Neural Networks? : ViT와 ResNet의 비교를 Hidden Representation 유사도와 Mean Distance를 통해 진행하였고, 이를 통해 layer의 feature map 간의 유사도를 측정 및 비교 하였습니다.
    3. Intriguing Properties of Vision Transformers : Patch Drop, Image shuffling 등을 적용한 이미지에 대해서 모델의 성능의 Robustness를 확인 할 수 있었습니다.
    4. How Do Vision Transformers Work? : ViT와 ResNet을 비교하며 loss function의 다른 점을 시각화 하여 보여주었습니다.
    많은 양을 논문을 일목요연하게 정리한 것이 인상적이었던 세미나였습니다. 좋은 발표 감사합니다.


  • 2022-06-05 22:48

    이번 세미나에선 How Do Vision Transformer Work? 라는 논문을 포함하여 관련 논문 3 가지가 추가로 소개되었습니다. Local 한 영역 단위로 이미지를 인식하고자 했던 CNN과는 다르게 patch 와 attention 을 사용하여 global feature 를 학습할 수 있게 제안된 ViT는 CNN보다 shape bias 가 높다는 특징이 있습니다. 이외에도 ViT 와 CNN 의 구조적인 차이는 accuracy 와 같은 단순한 성능 차이 이상으로 해석의 여지가 많은 것 같습니다. 이번 세미나를 통해 ViT와 CNN의 depth 에 따라 학습되는 feature 의 차이, ViT의 patch level transformation 에 대한 robustness, loss function 을 사용한 학습 측면에서 ViT 의 특징 등을 확인할 수 있었습니다. 각기 다른 논문들을 CNN과 다른 ViT의 특징을 다룬다는 것으로 묶어서 소개해주신 점이 인상 깊었고, 마지막에 발표자님이 언급해주신 것처럼 ViT에 대한 다른 실험적, 이론적 해석이 후속 연구에서 다뤄질 수 있을 것 같습니다. 짧은 시간 동안 많은 내용을 정리하여 소개해주셔서 많이 배울 수 있었던 세미나였습니다. 좋은 발표 감사합니다.


  • 2022-06-06 16:49

    이번 세미나에서는 Vision Transformer(ViT)과 CNN의 비교 분석을 수행한 논문 How Do Vision Transformers Work?를 중심으로 총 4가지 논문이 소개되었습니다. 박사과정 선배님의 세미나 답게 여러 논문들을 하나의 종합된 시각으로 엮어 풀어내신 점이 매우 인상 깊었습니다. 개인적으로 비전 분야에 대한 지식이 충분하지 않기 때문에 완벽하게 이해하기는 어려웠으나, 발표자분께서 짚어주신 main point를 파악하는데 집중하였습니다. ViT는 CNN에 비해 shape bias가 크고 global information을 더 많이 고려한다는 특성을 가지고 있습니다. 이에 따라 두 모델의 representation similarity를 비교해보면, lower layer와 higher layer에서 차이를 보이는 CNN과 달리 ViT는 모든 layer에서 균일한 형태를 보입니다. 또한, ViT는 CNN에 비해 saddle point가 많아 학습 난이도가 비교적 크다고 볼 수 있습니다. 더불어 데이터의 특성에 따라 ViT의 효과를 달리 볼 수 있다는 점이 흥미롭게 다가왔습니다. 짧은 시간 안에 굉장히 많은 실험과 인사이트를 공유해주셨는데, 세미나를 준비하는 입장에서 배울점이 많았고, ViT라는 주제와 관련해서도 앞으로 다양한 비교분석 연구가 등장할 것이라는 기대감이 들었습니다. 유익한 발표 진행해주셔서 감사합니다.


전체 503
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10502
관리자 2020.03.12 0 10502
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9105
관리자 2020.03.12 0 9105
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10222
관리자 2020.03.12 0 10222
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (6)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 91
Junyeong Son 2025.05.08 0 91
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (11)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 131
Doyoon Kim 2025.05.01 0 131
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 241
Sunghun Lim 2025.04.24 0 241
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 186
Suyeon Shin 2025.04.21 0 186
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 206
Woongchan Nam 2025.04.16 0 206
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 400
Kiyoon Jeong 2025.04.16 0 400
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 412
Hyeongwon Kang 2025.04.09 0 412
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 409
Jaehyuk Heo 2025.04.02 0 409
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 406
Jaehee Kim 2025.04.02 0 406
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 324
Jungho Lee 2025.04.02 0 324

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호