번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10462
|
관리자 | 2020.03.12 | 0 | 10462 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9072
|
관리자 | 2020.03.12 | 0 | 9072 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10188
|
관리자 | 2020.03.12 | 0 | 10188 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (6)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 90
|
Doyoon Kim | 2025.05.01 | 0 | 90 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 181
|
Sunghun Lim | 2025.04.24 | 0 | 181 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 153
|
Suyeon Shin | 2025.04.21 | 0 | 153 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 185
|
Woongchan Nam | 2025.04.16 | 0 | 185 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 343
|
Kiyoon Jeong | 2025.04.16 | 0 | 343 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 373
|
Hyeongwon Kang | 2025.04.09 | 0 | 373 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 370
|
Jaehyuk Heo | 2025.04.02 | 0 | 370 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 357
|
Jaehee Kim | 2025.04.02 | 0 | 357 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 294
|
Jungho Lee | 2025.04.02 | 0 | 294 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 267
|
Hankyeol Kim | 2025.03.25 | 0 | 267 |
이번 세미나는 "Masked Siamese Networks for Label-Efficient Learning"이었습니다. 해당 논문은 기존에 소개되고 있는 다양한 이미지 분야의 Self-Supervised Learning 방법론들이 representation collapse가 발생하거나, 불필요한 정보들을 보존하게 되는 등의 문제점을 가지고 있고, 이를 Masked Siamese Networks 구조를 제안하고 있습니다. 해당 논문은 anchor view에 대해 masking하고 target view는 augmentation만 진행하여 anchor representation이 target representation을 따라 가도록 학습하고 있습니다. 이때 마스킹 방법론에 대해 75% 가량을 마스킹하고, Focal Masking과 Random Masking을 함께 사용합니다. 이는 anchor image가 충분히 원본의 이미지를 손실하도록 만들어서 모델이 복원하도록 강제하기 위함입니다. 이와 더불어 anchor와 target 모델 간에는 EMA를 적용하여 분리시켜놓은데 반해, hidden representation을 실제 prediction으로 만드는 prototype은 공유하도록 하고 있는 점도 특징이라 할 수 있습니다. 이는 해당 논문이 representation을 유사하게 만들도록 하기 때문에, hidden representation에 동일한 변환을 가해 동일한 prediciton이 생성되도록 강제하는 장치로 보입니다. Self Supervised 분야에서 정말 다양한 논문들이 지난 몇 년간 많이 나오고 있지만, 실제로 어떤 학습 요소가 유의미한지에 대해선 아직 탐색이 진행되고 있는 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서 소개된 논문은 Masked Siamese Networks for Label-Efficient Learning 입니다. 본 논문은 기존의 Siamese Network에 ViT Encoder와 masking, prototypes 개념을 도입한 새로운 SSL 방법론을 제안합니다. Input level의 denoising이 아니라 masked input의 representation이 unmasked input의 representation과 유사하도록 하는 부분이 흥미로웠고, temperature 조절을 통해 representation collapse를 방지한 점도 인상깊었습니다. 기존의 여러 아이디어들을 잘 결합해 성능 향상을 이룬 논문인 것 같습니다. 이미지 분야의 대표적인 SSL 방법론들을 보면서, 서로 매우 비슷한 방법론이 매우 많다고 생각했었는데, 비슷한 구조의 다른 논문들과의 공통점 차이점을 설명해주어 더 명확한 이해를 할 수 있었습니다. 좋은 발표 감사합니다.
본 세미나에서는 Masked Siamese Networks for Label-Efficient Learning에 대한 리뷰를 진행하였습니다. Self-Supervised Learning(SSL)이 도입된 배경부터 출발하여, 다양한 예시의 방법론들을 설명해주셔서 SSL에 대한 흐름을 알 수 있었습니다. 본 논문에서 제안한 방법론인 Masked Siamese Network의 경우 pixel이나 token level의 복원을 진행하지 않기 때문에 기존의 mask-denoising의 문제점을 완화할 수 있었습니다. VIT 기반의 encoder를 학습하는 것을 목적으로 하며, Input level의 patch들을 예측하는 것이 목표가 아니라 한 이미지의 다양한 view가 유사한 represetation을 갖을 수 있도록 representation level의 학습을 진행합니다. 즉 국소적인 부분에 주목하여 학습하기 보다는, 조금 더 큰 규모에 주목하여 학습하는 방식입니다. 이러한 Masked Siamese Networks의 경우 Low-shot 환경에서 기존의 모델들 대비 우수한 성능을 보여줬습니다.
발표 장표 중 가장 기억에 남았던 내용은 이미지는 공간이 많이 중복되는 자연 신호이고, 언어는 정보 밀도가 높은 인위적인 신호라는 내용이었습니다. 저는 한번도 생각해보지 못했던 인사이트였기 때문에 기억에 남았고 이미지와 언어 정보를 이런식으로도 생각할 수 있다 라는 것을 알았습니다. 좋은 발표 감사합니다.
금일 세미나에서는 Masked Siamese Networks for Label-Efficient Learning 논문을 다루어 주셨습니다. 우선 self-supervised learning, 즉, unlabeled data에 자체적으로 label을 만들어서 모델을 supervised 방식으로 학습하는 방식에 대해 짚어 주셨습니다. Siamese network는 view가 다르더라도(color jitter, scal) 같은 이미지에서 나왔다면 유사한 representation을 가지도록 학습을 진행합니다. Masked Siamese Networks(MSNs)에서는 마스킹된 anchor view가 마스킹되지 않은 target view와 유사한 representation을 갖도록 하고자 합니다. 구체적인 부분에서 masked autoencoder에 mask 생성시 큰 비율로 mask를 생성함으로써 공간이 많이 중복되어 마스킹 영역 복원시 쉽게 채워지는 이미지의 특성에 기반한 문제를 해소하고 있습니다. 또한 temperature를 이용하여 anchor prediction이 낮은 confidence를 갖도록 강제하고 있습니다. MSNs와 DINO, BYOL 등 다른 방법론들과의 공통점과 차이점에 대해서도 깔끔하게 정리해 주셔서 앞으로 논문을 볼 때 있어 정리하면서 보면 좋을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다!
이번 세미나는 Masked Siamese Networks for Label-Efficient Learning을 주제로 진행되었습니다. 기존의 mask-denoising 방법의 경우 low-level image detail을 복원하기 위한 modeling을 필요로 한다는 문제를 주장하며, 본 논문에서는 해당 문제점을 완화하고자 하였습니다. Masked Siamese Networks는 ViT기반의 encoder를 학습하되 input level의 patch들을 예측하는 것이 아닌 representation level denoising을 수행하였습니다. anchor view는 masking을 target view는 augmentation을 수행하였으며 representation을 label로 변경해주는 prototypes라는 모듈을 사용하였습니다. prototypes에는 temperature를 통해 anchor prediction의 낮은 confidence를 갖도록 강제하며, representation collapse 문제를 방지합니다. 해당 세미나를 진행하면서 기존의 방법론들과 공통점, 차이점에 대해서 설명해주셔서 다른 방법론들과 비교하면서 들을 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 ssl 기법인 msn 모델에 대해서 소개해주셨습니다. Masking된 앵커 이미지와 타겟 이미지간의 representation vector가 유사하도록 학습하는 모델로 reconstruction기반의 모델들이 갖는 단점을 해결한 기법이었습니다. 흥미로웠던 점은 SSD모델 보다도 적은 파라미터로 월등한 성능을 보였다는 점이었습니다. SSD또한 positive paire는 가깝게 negative pair는 멀게 representation 벡터를 학습하는 구조인데 어떤 점이 성능 차이를 야기했는지 궁금했습니다. 좋은 발표 감사합니다.
이번 세미나는 labeled data가 부족한 few shot 상황에서 기존 Image classification 분야의 SOTA 성능을 크게 앞지른 연구 Masked Siamese Networks for Label-Efficient Learning를 주제로 진행되었습니다. 발표자분의 세미나 자료는 항상 직관적이고 명료한 장표로 구성되어 있으며 발표자분께서 명확하게 내용을 전달해주셔서 매번 인상 깊게 듣고 있습니다. 이번에 다뤄주신 논문은 최근 비전 분야에서 self-supervised learning을 위해 사용되고 있는 Siamese Network에 집중하여 Masking 방식을 도입한 Masked Siamese Networks(MSNs)를 제안합니다. 이 방법론은 pixel이나 token 단위의 reconstruction 과정을 포함하지 않기에 mask-denoising 문제를 완화할 수 있고 fine-tuning을 따로 진행하지 않아도 된다는 장점을 가집니다. 또한, 동일한 이미지 안에서 서로 다른 view의 representation이 유사해지도록 학습하여 representation level denoising을 진행합니다. 결국 마스킹된 input과 마스킹 처리하지 않은 input의 representation이 유사한 결과를 보이게 됩니다.
비전에서의 마스킹은 주변 픽셀을 통해 비교적 쉽게 예측할 수 있다는 측면에서 데이터 자체(unmasked input)에 힌트가 있다는 해석 역시 흥미롭게 들었습니다. 유익한 세미나 진행해주셔 감사합니다.
이번 세미나에선 Masked Siamese Networks for Label-Efficient Learning 이라는 논문이 소개되었습니다. 이미지의 representation 을 학습하기 위한 연구의 방향으로는 크게 reconstruction 을 학습하는 것과 self-distillation 방식을 사용하는 것으로 나눌 수 있습니다. 논문에선 이미지의 patch level 또는 pixel level reconstruction loss 를 사용했던 기존 연구들이 불필요한 low-level detail을 학습하기 때문에 downstream task 의 학습시엔 기존 weight들도 fine-tuning이 필요함을 지적합니다. 제안하는 MSN 구조는 self distillation을 사용했던 기존 연구들인 DINO, BYOL 과 유사한 형태이고, masked patch 가 입력으로 사용되지 않는 다는 점에서 MAE와, prototype을 사용한다는 점에서 SwAV와 유사합니다. 발표자분께서 설명해주신 것처럼 방법론의 novelty보단 reconstruction 과 self-distillation에 대한 비교 설명, 지적한 문제에 대한 개선 결과를 few-shot setting에서 보여준 점이 인상 깊었고 이 점이 논문의 contribution이라 생각됩니다. 좋은 세미나 발표 감사합니다.
이번 세미나에서는 “Masked Siamese Networks for Label-Efficient Learning” 논문을 소개해 주셨습니다. 본 논문은 label data가 부족한 상황에서 사용할 수 있는 Self-Supervised Learning 방법론으로 기존의 Siamese Network에 ViT, masking 등의 다양한 아이디어를 결합한 것입니다. 특히 발표자께서 짚어 주신 것과 같이 이미지는 언어와 다르게 공간적으로 중복이 많은 자연 신호로, Masking을 적용하여도 주변의 정보를 활용해 쉽게 복원이 가능하다는 점을 지적하며 75%라는 매우 큰 비율의 Masking을 수행한 것이 인상적이었습니다. 또, 이런 혹독한 Masking 후에도 결과가 target representation을 잘 따라갈 수 있도록 anchor view에만 Masking을 수행하였습니다. 이처럼 본 논문은 기존에 있던 다양한 아이디어를 적절히 변형해 적용하는 것을 통해 기존의 SOTA 성능을 크게 앞서 나갈 수 있었습니다. 본 논문에 이러한 훌륭한 적용에 감탄하였으며, 발표자께서 다른 SSL 방법론들 과의 차이를 잘 설명해 주셔서 매우 재밌게 들을 수 있었습니다. 좋은 발표 감사합니다.
금일 세미나는 “Masked Siamese Networks for Label-Efficient Learning”연구에 관해 진행되었습니다. 기본적으로 Self Supervised Learning방법론으로서 Siamese 네트워크에 masking 기법을 적절히 활용한 것으로 보입니다. Masking이 SSL 방법론에서 역시나 잘 활용될 수 있다는 것을 다시 확인했습니다. 더군다나 reconstruction의 필요성을 제거해 Fine-tuning의 부담을 덜어낸 것도 인상적이었습니다. 후반부에서 같은 SSL계열의 DINO, BYOL등의 모델과 비교해서 잘 짚어주셔서 더욱 이해가 쉬었습니다. 언제나 직관적이고 좋은 설명으로 세미나 진행해주셔서 감사합니다. 좋은 발표 잘 들었습니다.
이번 세미나는 Vision 분야에서 Self-Supervised Learning 기법을 다루는 Masked Siamese Networks for Label-Efficient Learning 논문으로 진행되었습니다. 본 논문에서 제안한 Masked Simamese Network는 downstream task에 필요하지 않은 low-level image detail을 modeling해야하는 단점을 가지는 기존 방법론들과는 달리 Pixel이나 token level 복원을 진행하지 않음으로서 mask-denoising의 문제점을 완화하고, ViT 기반의 encode를 이용해 Input level의 patch들을 예측하는 것이 아니라 마스킹된 input의 representation이 마스킹되지 않은 input의 representation과 유사하도록 학습을 진행하는 방법론입니다. 발표 중간중간 방법론과 관련된 부분의 코드를 함께 소개해주셔서 이해를 좀 더 직관적으로 할 수 있었던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나는 Masked Siamese Networks for Label-Efficient Learning 논문으로 진행되었습니다. 최근에 시계열 도메인에서 Masked autoencoder 구조를 보면서 발표자께서 언급해주신 밀도가 높은 인위적인 정보(언어)가 이미지도 유사하다고 언급했는데, 해당내용을 시계열에서도 들을 수 있었습니다(실제 초단위 말고 10초단위로 진행하는 경우많음). 그래서 masking 비율이 75% 정도로 사용했었는데, 해당 내용도 유사하게 언급되었었고, 이런점에서 다른 도메인이라도 핵심을 파악하면 vision, nlp, time-series 등등 얼마든지 같은 맥락으로 적용할 수 있음을 느꼇습니다. 기존의 샴넷(실제 샴넷과는 조금 다르지만) 구조에 augmentation 은 기존 모델과 차이점이 없었고, masking 알고리즘을 복원이 아니라, target representation 에 집중하도록 설계한 것이 인상깊었습니다. 해당 모델을 backborn 으로 삼아 핵심을 좀 더 이해하고, 저도 다른 도메인 분야에 사용될 수 있을지 여부를 심도깊게 고민해 보고자 합니다. 좋은 내용 감사합니다.
금일 세미나는 masked siamese network를 소개해주셨습니다. 먼저 빠르게 새로운 논문을 리뷰해주셔서 좋았습니다. 저는 개인적으로 background에서 설명해주신 내용 중 reconstruction loss 기반의 방법론들에 대해 언급해주신 부분이 흥미로웠습니다. 왜냐하면 language는 masking된 부분을 복원하는 과정에서 semantic을 학습하는것이 진리처럼 사용되고 있으나 image에서는 다소 다른 이슈가 있다는것을 알게되었기 때문입니다. MAE가 SOTA 성능을 보이고 있으나 pixel 단위의 복원을 진행할 경우 low-level image detail들을 모델링하게 되는데 해당 과정이 downstream task에 필요하지 않다고 합니다 (논문의 표현을 빌리자면 semantic abstraction을 포함한 classification task에 필요하지 않다고 합니다) 다만 저자들이 다음과 같은 주장을 실험을 통해 증명했다면 더욱 흥미로웠을 것 같습니다.
소개해주신 방법론은 복원없이 siamese network를 통해 동일한 이미지의 상이한 view가 유사한 representation을 가지도록 학습을 진행합니다. 다만 masking을 함께 적용하여 Masked representation과 unmasked representation이 유사해질 수있도록 강제하여 모델을 학습했습니다. 발표 감사합니다.