번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10468
|
관리자 | 2020.03.12 | 0 | 10468 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9079
|
관리자 | 2020.03.12 | 0 | 9079 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10191
|
관리자 | 2020.03.12 | 0 | 10191 |
500 |
New [Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 10
|
Junyeong Son | 2025.05.08 | 0 | 10 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (6)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 97
|
Doyoon Kim | 2025.05.01 | 0 | 97 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 195
|
Sunghun Lim | 2025.04.24 | 0 | 195 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 156
|
Suyeon Shin | 2025.04.21 | 0 | 156 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 186
|
Woongchan Nam | 2025.04.16 | 0 | 186 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 358
|
Kiyoon Jeong | 2025.04.16 | 0 | 358 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 379
|
Hyeongwon Kang | 2025.04.09 | 0 | 379 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 377
|
Jaehyuk Heo | 2025.04.02 | 0 | 377 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 366
|
Jaehee Kim | 2025.04.02 | 0 | 366 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 299
|
Jungho Lee | 2025.04.02 | 0 | 299 |
매 발표마다 가장 최신 논문을 분석해주셔서, 흐름을 잃지 않고 많이 배우고 있습니다. 금일 발표는 최근에 발표된 ConvNeXt에 대해 다루었습니다. ConvNeXt의 변화 포인트를 살펴보니 NLP transformer의 학습 방법 테크닉과 setting이 유사해지는것을 알 수 있었습니다. NLP와 달리 아직까지 Vision에서 Transformer가 필수적이라 생각하지 않았는데 image에서는 아직까지 CNN이 comparable 아키텍쳐 라는 것을 살펴볼 수 있는 시간이었습니다. 하지만 해당 논문이 fair하게 비교되지 않았다는 주장들도 있습니다. 가장 활발히 논의가 이루어지는 분야를 발표로 듣고 관련 이슈까지 알 수 있어서 유익한 세미나였습니다. 감사합니다.
최근 소개된 ConvNeXt에 대해 세미나를 준비해주셨습니다. 최신화된 ViT 기반 모델이 비교하는 CNN 형태의 모델이 너무 오래되었다는 것을 지적하며 기존 ResNet을 새로운 형태로 변형한다면 더 좋은 성능을 보일 수 있음을 보입니다. 구체적으로는 layer 구성을 swin transformer의 비율에 맞추어 변형하고 모델 초반 이미지의 downsampling 대신 patchify를 수행하며, ResNeXt의 depthwise separable conv를 차용하여 conv 연산의 가중합을 표현합니다. 또한 메모리 효율성을 위해 MobileNetV2의 inverted bottleneck 기법을 적용합니다. 그 밖에 kernel size나 activation function(ReLU→GeLU), normalization(BN→LN) 등을 조정한 다음 layer 중간 downsampling stage까지 변형하여 결과적으로 ConvNeXt를 구성합니다. 성능 향상도 중요하지만 인퍼런스 속도의 향상이 더 중요한 의의를 갖는 것 같습니다. ViT 저자의 트위터에서 일부 figure에서 공정한 비교가 이루어지지 않았다는 내용을 보았는데, 논문이 학회에 제출되고 리뷰가 이루어지는 동안 꼼꼼하게 실험의 공정성을 판단하기가 참 힘들겠다는 생각을 하였습니다. 모든 사람이 리뷰를 확인하고 공개적으로 댓글을 남길 수 있는 OpenReview 기반의 학회가 이러한 위험을 줄일 수 있을 것 같습니다. 발표 잘 들었습니다.
이번 세미나에선 CNN 구조로 ViT 이상의 성능을 기록했다고 하는 ConvNeXt 논문에 대해 소개되었습니다. Vision Transformer가 처음 제안된 후, ViT 혹은 여러 파생 모델들이 대부분의 CV task들에서 SOTA의 성능을 달성하고 있는데, 이번 논문은 이러한 결과들이 ViT의 구조적 이점 때문이 아닐 수 있다는 생각을 하게 했습니다. ConvNeXt는 Swin Transformer를 포함하여 이전 연구들에서 성능향상을 위해 사용했던 stage 별 layer 비율, patchfy 사용, depth wise conv, inverted bottleneck 같은 구조적 특징들을 사용하고, activation, optimizer, normalization 같은 디테일한 구조까지 조정하여 ViT이상의 성능을 기록합니다. 개인적으로 ViT가 처음 제안되었을 때 많은 관심을 받고 다양한 후속연구로 이어질 수 있었던 이유는 적은 양의 학습데이터로는 기존 CNN의 성능을 뛰어넘지 못하지만, 학습 데이터를 많이 사용할수록 CNN의 이상의 성능을 달성할 수 있다는 실험적 결과가 이미지의 spatial 한 정보를 적게 사용하여 inductive bias가 적다는 ViT의 구조적 특성과 잘 맞기 때문이었다고 생각합니다. ConvNeXt가 ViT보다 나은 성능을 보여준 점은 놀랄만한 결과라 생각하지만 발표자분께서도 언급하셨듯이 ResNet 구조에서 변형한 각각의 방법들이 성능향상을 시킬 수 있었던 근거부분이 부족하다 생각되고, 비교실험이 공정했는지에 대한 의문도 남아있기에 앞으로 ConvNeXt가 어떤 평가를 받게될지 지켜봐야할 것 같습니다. 따끈따근한 연구 소개해주셔서 감사합니다.
오늘 세미나에서는 어떻게 보면 가장 최신이 되는 CNN 모델이지 않을까 하는 기대로 들었습니다. VIT 계열의 방법론들이 CNN 계열 방법론을 압도적인 성능차이로 우세를 점해서 앞으로는 VIT 쪽이 더 연구되지 않을까 생각을 했었는데, 첫 장표에서의 성능은 놀라웠습니다. 구체적인 방법론에서는 AdamW, Residual Block 의 변화, 구조적인 변화등이 있었습니다. 가장 최신이 되는 vision task 분야의 논문을 정리하면서 들을 수 있어서 좋은 시간이였습니다. 개인적으로는 저자들이 CNN 구조에 왜 이러한 변화를 넣으려고했을까 하는 도전적인 연구가 인상깊었고, cnn 구조가 가지는 장점이 저자들이 연구를 지속한 어떤 이유가 있을까 궁금했습니다. 발표 잘들었습니다. 감사합니다
이번 세미나는 ConvNeXt를 주제로 진행되었습니다. 본 논문에서는 CNN을 최근 ViT와 유사한 조건으로 구성하여 실험할 경우 어떠한 결과를 내는지, ViT의 구조 자체가 CNN 보다 비젼에서 좋은 성능에 영향을 끼치는지 확인 하였습니다. CNN에 여러가지 변화를 주었습니다. 최근 연구에서 사용되는 optimizer나 Residual Block, depthwise convolution, 커널의 크기 등 변화를 주고 성능을 확인하였습니다. 결과가 굉장히 신기하였습니다. 최근 ViT에 뒤지지 않는 성능에 적은 연산량을 보이는 것이 신기하였습니다. 비젼 분야에서 ViT는 정말 CNN보다 좋은가는 최근 많이 논의되는 주제인 것 같습니다. 제가 비젼 분야를 연구하지는 않지만 잘 튜닝되고 최근 방법론들 적용한 모델과 이전 모델을 비교하는 것이 정말 타당한가에 대해서는 항상 의구심을 가지고 있었는데, 이러한 점을 해결해주는 논문인 것 같으며 최신 연구들에 대해서 다시 한번 생각해볼 필요가 있을 것 같다라는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나는 기존의 CNN 모델을 최신화한 ConvNeXt에 대해서 근래에 각광을 받고 있는 ViT와 Swin Transformer와 비교 실험한 내용이 소개되었습니다. 지난 학기 딥러닝이론및응용 수업을 듣고, 또 대한산업공학회의 여러 발표를 들으며 느낀 바는 비록 학계에서는 ViT의 등장이후 CNN 붐 이후의 새로운 phase를 맞이 한 것 같아 보입니다만 실질적으로 활용되는 CNN모델의 종류가 자연어처리 분야처럼 크게 변화하지 않고 있다는 점이었습니다. 가령 ResNet은 마치 기본 옵션으로 선정되는 경향을 확인하였습니다. 이러한 배경에서 기존 CNN 구조에 어떠한 변화들이 주어진 것인지 많이 궁금하였고 세미나를 통해 확인한 결과 소개된 방법이 ‘새롭다’기 보다는 ResNet이후의 여러 모델에서 차용된 기법을 융합했다는 인상을 받았습니다. 그 중 Depthwise Convolution을 적용하여 FLOPs를 낮춘 점은 충분히 합리적인 방법인 것 같습니다. 이후의 연구로 다른 이미지 처리 과업에 대한 실험을 진행하면 어떨까 하는 생각도 해봅니다. 흥미로운 발표 잘 들었습니다. 감사합니다.
본 세미나는 Vision Transformer의 등장으로 다소 괄시를 받았던 기존 비전 기법의 주를 이루고 있던 CNN이 사실은 비교가 잘못되었다는 주장으로 시작합니다. 지금까지 발전해왔던 훈련 기법이나 모델 구조에 대한 세부 발전들을 CNN에는 적용하지 않고 ViT는 적용했기 때문에 Fair한 비교가 아니라는 것이 메인 주장입니다. 따라서 CNN의 대표 모델인 ResNet에 kernel size나 depth부터 모델의 다양한 구조를 변화시켜 성능 향상을 ViT와 유사하거나 더 높게 만들었으며 이를 통해 CNN이 낡은 기술이 아님을 보였습니다. 특히 실험을 통해 ViT보다 CNN이 연산량과 속도, 그리고 강건함 면에서 더 우수한 부분을 보였습니다. 물론 Transformer가 CNN보다 범용적으로 활용되는 경우가 많지만 비전 만큼은 아직 상응하는 성능을 달성한다고 말할 수 있어, 기존 연구들에 대하여 맹목적으로 믿지 않고 비판적으로 수용해야 한다는 것을 다시금 깨달았습니다. 이는 마치 최근 논문 스터디에서 발표했었던, "More Identifiable yet Equally Performant Transformers for Text Classification" 논문에서 Key Vector의 차원을 줄일 수록 성능이 향상한다는 내용처럼 기존 연구에 도전하는 내용이라 참신했습니다. 좋은 발표 감사합니다.
금일 세미나에서는 기존의 CNN 네트워크를 최신화하여 성능을 향상시키는 과정을 보여준 논문을 다뤘습니다. 현재 SOTA의 성능의 기반이 되는 ViT와 유사한 조건으로 CNN 구조를 변형하였는데, 크게 ViT와 Swin Transformer 구조를 차용하고 있습니다. 최적화 방법, convolution block 구성, down-sampling 횟수 등을 변형하여 CNN으로 ViT와 견줄만한 성능을 내고자 하였는데, 실제로 downstream task에서 FLOPS 대비 더 좋은 성능을 보였고, robustness도 갖추고 있음을 보였습니다. 세미나에서도 언급되었듯이 본 논문의 취지와 연구 방향성은 충분히 납득이 가지만 세부적인 논리 근거와 방법론적 novelty 측면에서는 조금 아쉬운 것 같습니다. 하지만, 여전히 CNN의 구조 변화로 ViT에 준하는 성능을 낼 수 있다는 가능성과 연구 잠재성을 보여준 논문인 것 같아 재미있었습니다. 좋은 발표 감사합니다.
이번 세미나에선 CNN 구조로 ViT 이상의 성능을 달성했다고 하는 ConvNeXt라는 논문을 소개해 주셨습니다. 최근 ViT를 공부하면서 기존 CNN모델들과 견주어 좋은 성능이 나오는 것을 당연히 모델이 좋아서라고 생각했던 저의 안일함을 반성하게 해주었던 좋은 세미나라고 생각합니다. 본 논문은 Transformer라는 구조적 이점이 이러한 좋은 성능을 이끌어낸 것이 아닐 수 있다는 점을 지적합니다. ConvNeXt는 기존 고전 CNN모델인 ResNet에 최근 높은 성능을 달성한 Swin Transformer를 포함하여 최근 성능 향상을 위해 사용되었던 파라미터 및 구조들을 활용하여 모델 성능 및 효율을 대폭 향상시켰습니다. 가장 중요한 변화 사항들은 Optimizer의 변화 (Adam → AdamW), Convolution의 변화 (CNN → depthwise CNN), 각 block마다 Acitivation과 Normalization의 적용 등이 있습니다. 최근 Vision Task에 있어서 CNN과 Transformer 중에 어떤 구조가 더 좋을지 토론하는 구도로 연구가 진행되고 있어 유심히 살펴보고 있는데 이번 세미나를 통해 좋은 논문 소개해주셔서 감사합니다.
금일 세미나는 "A ConvNet for the 2020s"라는 주제로 진행되었습니다. 본 발표에서는 CNN을 최신화하면 얼마나 성능이 향상될까라는 의문에서 시작하여 CNN을 Swin Transformer에 맞게 변형한 ConvNeXt가 소개되었습니다. ConvNeXt에서는 AdamW optimizer 사용, Transformer block처럼 구성한 residual block, depthwise convolution 사용, kernel size 확대, block마다 activation과 normalization 적용, stage마다 down-sampling 적용과 같은 변화를 통해 ConvNeXt를 구축하였습니다. 개인적으로는 ConvNeXt라는 네이밍이 인상깊었고, CNN의 구조를 변화하여 ViT보다 좋은 성능을 도출할 수 있다는 것을 실험적으로 증명한 것이 인상깊었습니다. 더불어 ViT 관련 연구들이 큰 주목을 받고 있는 상황에서 CNN에 다시 초점을 맞추어 이런 논문이 나온 점도 흥미로웠습니다. 좋은 발표 감사합니다.
CNN을 사용하여 문제를 해결하는 많은 연구에서 baseline과 backbone을 ResNet 계열로 사용하고 있습니다. 그만큼 ResNet 이후에 구조적인 변화가 없다고 해석할 수 있습니다. 금일 세미나에서 소개해준 A ConvNet for the 2020s 에서는 이러한 문제를 짚고 있습니다. 최근 ViT의 등장으로 Transforemr-based model의 경우 변화와 발전이 빠르게 이루어지고 있으나, 항상 비교되는 CNN 모델의 경우에는 그렇지 못합니다. 저자들은 이러한 비교가 공정하지 못하다고 말하고 있으며 ResNet에 최신 기법들을 추가함으로써 ConvNext라는 구조를 제안합니다. 실험적으로 Swin Transformer와 비슷한 성능을 보임을 확인하였고 CNN 답게 ViT 계열보다 빠른 학습 및 추론 속도를 지닙니다. 개인적으로는 비전 테스크에서 Transformer 구조를 사용하는 비용에 대해 부정적인 입장이라 오랜만에 보는 CNN을 기반으로 하는 모델의 분류 성능 향상이 반가웠지만, 최근 트렌드인 multi-modal을 생각할때는 역시나 Transformer 구조에 대한 이해와 발전이 필요하지 않을까 생각합니다. 감사합니다.
이번 세미나에서는 새로운 cnn 구조의 모델인 ConvNeXt를 제안한 논문 A ConvNet for the 2020s를 주제로 진행되었습니다. NLP 분야에서 획기적인 발전을 가져온 Transformer를 Vision 분야에 접목한 ViT가 발표된 이후 굳게 자리를 지켜왔던 CNN 기반의 모델보다 ViT 구조의 연구가 우세할 것이라는 전망이 있었으나, 최근 ViT와 비교되는 대상 CNN 모델들이 비교적 발표된지 오래된 모델이라는 점을 감안했을 때 ResNet을 Swin Transformer에 맞게 변형하여 실험한 결과 ViT보다 높은 성능을 기록함을 볼 수 있었습니다. 이에 따라 ViT와 유사한 조건으로 CNN을 구성한다면 성능 향상에 도움이 될 것이라는 가능성이 제기되었습니다. ViT의 경우에는 입력 이미지를 patch 단위로 나누어 Transformer 모델의 입력으로 활용합니다. local 정보를 학습하는 CNN 계열의 모델과 달리 ViT는 global attention을 학습하기 때문에 inductive bias가 적어서 대용량 데이터 학습에 유리합니다. 새로 제안된 모델 구조인 ConvNeXt는 residual block을 transformer block처럼 구성하고 width를 크게 설정한 depthwise convolution 구조를 채택했습니다. activation과 normalization layer는 block마다 적용하고 down-sampling은 매 stage마다 적용하는 등의 변화를 취했습니다. ViT의 등장 이후 저도 vision 분야에서 ViT가 막강한 영향력을 행사할 것 같다는 생각을 하고는 했는데 본 발표를 통해 CNN 구조와의 융합으로 더욱 강력한 구조가 앞으로 등장하기를 기대하게 되었습니다. 유익한 발표 진행해주셔서 감사합니다.
이번 세미나는 ConvNeXt에 대해 소개해주셨습니다. 해당 모델은 CNN 구조를 ViT와 동등한 입장에서 비교하기 위해 제안된 모델입니다. 즉 ViT가 CNN보다 뛰어난 모델이라고 하기에는 CNN 구조가 너무 구식이라는 주장이었습니다. 본 논문에서는 이런 구식인 CNN 구조를 최신으로 바꾸기 위해 residual block을 transformer block으로 대체하고, depthwise convolutin 구조를 사용하는 등의 방식을 채택했습니다. 실험 결과 제안된 CNN 모델의 성능이 크게 향상되었습니다. 하지만 동등한 비교라는 점에서는 의문이 들었고, 제안된 모델이 꼭 두 구조간의 우열을 가리는 것이 목적이 아니라 두 구조가 갖는 특징을 세세하게 밝혀 더 좋은 구조의 모델로 발전시키기 위한 초석이 되지 않을까 생각했습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 ConvNeXt에 대해서 소개를 진행해주셨습니다. ViT라는 모델 구조가 하이라이트를 받고 활발히 연구될수록 기존의 CNN에 대한 관심이 적어진다는 느낌을 받고 있는데, 그러던 중에 이런 논문을 접하게 돼서 신선하기도 하고 학계의 흐름을 짚어볼 수 있는 유익한 시간이었습니다. 우선 해당 논문에서는 ViT가 비교를 수행하는 CNN 모델이 말그대로 구식이라는 점을 지적하는데 이는 어느 정도 수용이 가능한 말입니다. 굉장히 많은 ViT 논문들을 보면 CNN 아키텍처가 일반적인 ResNet-50 정도로 실험을 진행하는데, ViT에 대해서는 그렇게 많은 튜닝과 변형을 진행하면서도 비교 대상인 CNN은 과거의 산물을 그대로 이용하는게 납득이 안되기도 했었습니다. 논문은 ResNet 구조에 대해 cumulative하게 변형을 가하게 되는데, 특히 Swin Transformer와 유사한 구조 사용, GeLU 사용, activation은 한번만 사용하는 등의 변형 만으로 성능이 크게 향상되는게 신기했습니다. 무엇보다 Depthwise Separable Convolution은 요새 다른 ViT 계열에서도 자주 활용하는 것으로 보아 연산 효율성 및 효과 측면에서 좋은 구조인 것 같습니다. 항상 그렇듯 유익하고 좋은 발표 감사합니다.
금일 세미나는 A ConvNet for the 2020s에 대해 진행되었습니다. ViT이후 CNN과 Transformer based 접근 사이에 과연 어느 방향이 더욱 적합한 것인지에 대해 많은 설왕설래가 있어온 것 같습니다. 본 연구는 이러한 가운데, CNN을 보다 새롭게, 최신화 해서 성능을 확인하는 과정, 결과를 보여줍니다. 본 세미나를 통해서 CNN을 이루는 구조와 구성요소에 관해 종합적으로 이해할 수 있었습니다. Transformer 계열과의 본격적인 비교를 위해, Convolution neural network의 다양한 요소들을 최신화하는 과정을 보았습니다. 개인적으로 transformer와 어떻게 직접적인 비교를 해 conv_net을 최신화할 수 있는 지 살짝 의아했는 데, 연구의 진행 내용을 살펴보며 이해를 할 수 있었습니다. 특히나 depth-wise convolution을 통해 self-attention과 유사한 구조를 취하게끔 하는 부분이 인상깊었습니다. 눈에 띄는 주제였습니다. 좋은 발표 이해하기 쉽게 잘 발표해주신 발표자분께 감사하다는 말씀을 드립니다. 발표 잘 들었습니다.
금일 세미나는 A ConvNet for the 2020s에 대한 리뷰로 진행되었습니다. 소개해주신 논문은 vision transformer(ViT) 관련 논문들이 많이 발표되고 있는 흐름에서, ViT 모델과 비교대상이 되는 ConvNet 모델의 학습 조건이 동등하지 않다는 주장을 하며, CNN을 ViT와 유사한 조건에 학습하여 ViT 계열 모델과 비교하는 실험들을 리뷰합니다. 실험적으로도 ViT와 학습 환경을 비슷하게 맞춘 ConvNeXt의 성능이 ViT 모델들 보다 우수한 성능을 보임을 확인하였습니다. 이미지 분류 성능뿐만 아니라, 연산량과 강건성의 측면에서도 다른 ViT 계열보다 개선된 성능을 리포팅하여 해당 결과가 굉장히 흥미로웠습니다. Depthwise seperable convolution, inverted residuals 등 성능을 향상시키고자 추가한 여러 기법들에 대해 알 수 있어 유익했으며, 이러한 기법을 ConvNet에 추가하였을 때 연산속도나 성능 측면에서 ViT보다 좋은 성능을 달성하는 것이 가능함을 배울 수 있었습니다. 좋은 발표 감사합니다.
오늘 세미나는 ConvNeXt에 대한 내용으로 이루어졌습니다. 본 논문에서는 최근 CNN을 대체하고 있는 ViT가 정말로 CNN을 능가하는 모델인지에 대해 의구심을 표하고 이를 검증하고자 하였습니다. 이를 위해 swin transformer 등에서 사용된 여러 학습 기법을 적용하였고, 구조적으로도 normalization, activation 등을 수정한 ConvNeXt을 제안하였습니다. 실험 결과 ViT와 비교했을 때, ConvNeXt이 오히려 더 좋은 성능을 보여 지금까지 CNN이 불리한 조건에서 ViT와 비교되어 왔음을 짐작할 수 있었습니다. CNN에서 ViT로 연구의 흐름이 완전히 변화될 것이라고 예상했는데 이미지 처리에서 CNN이 여전히 잘 작동하며, 성능 향상의 여지가 남아있다는 것을 오늘 발표를 통해 알 수 있었습니다. 좋은 발표 감사합니다.