Seminar

BOARD

[Paper Review] ProcSim: Proxy-based Confidence for Robust Similarity Learning

Paper Review

작성자

Hun Im

작성일

2024-05-10 23:00

조회

1621

논문 제목 : ProcSim: Proxy-based Confidence for Robust Similarity Learning. (Barbany, Oriol, et al., CVPR 2024)
논문 Overview
1. Annotation error로 인해 잘못된 label을 갖는 데이터가 학습 데이터에 포함되어 있는 경우 noise를 선별하고 clean data만을 이용해 Deep Metric Learning을 수행하기 위한 방법론 ProcSim을 제안
2. 이 뿐만 아니라 기존의 Noisy Deep Metric Learning 방법론들은 Noisy data 마저도 균등 분포로 가정하여 진행하였지만 실제로는 특정 이미지에 몰리는 경우도 존재하기 때문에 이러한 시나리오를 데이터셋 구성에 반영하여 실험을 진행
3. 구성 요소는 다음과 같음. Sample ConfidenceOtsu’s MethodPseudolabel Language Guidance (PLG) Loss
  - 각 sample이 clean인지 noisy인지 식별하기 위한 confidence score를 계산하고자 하며, training loss를 이용해 pair에 confidence를 부여하는 SuperLoss를 응용
  - pair에 confidence를 부여하던 SuperLoss와 달리 각 sample에 confidence를 부여하며 confidence를 계산하기 위해 Proxy-NCA 방법을 활용
  - clean과 noisy 분포를 나눌 thresholding 방법으로 Gaussian Mixture Model이 좋은 후보군이지만 반복적인 과정과 gaussian 분포이어야 한다라는 제약 때문에 불가능하며 대신 Otsu’s method를 사용
  - Supervised DML에서 두 sample 간의 Similarity는 두 sample이 같은 class에 속할 확률을 나타냅니다. 하지만 test단계에서 unseen class가 나타나는 경우 semantic structure를 반영하는 similarity가 필요하다 주장
  - 이를 위해 Self-supervised learning loss를 추가하며, 그 loss 로 PSG Loss를 사

발표 자료 및 발표 영상 발표 자료 : 하단 첨부
발표 영상 :

전체 17

Doyoon Kim

2024-05-20 10:55

이번 세미나는 deep metric learning(dml)을 주제로 진행되었습니다. DML의 한 종류가 contrastive learning인 것처럼 궁극적으로 동일한 class의 샘플은 임베딩 공간에서 서로 가까이 있도록 학습하는 것을 목적으로 합니다. DML의 일종인 super loss라는 것은 noisy 샘플과 clean 샘플을 구분하고자 하는 목적의 손실함수입니다. 이떄 noisy 샘플이란 실제 라벨과 가장 큰 confidence score를 갖는 라벨의 차이가 존재하는 샘플을 의미합니다. 따라서 dml의 저해 요소가 되는 샘플이라고 볼 수 있습니다. 따라서 소개해주신 방법론은 clean data만으로 metric learning을 수행하는 것을 목표로 합니다. 제안된 방법론은 크게 두 가지 loss로 구성이 되어있는데, 하나는 proxy를 활용한 confidence score가 반영된 metric learning loss이며, 나머지 하나는 pseudo language guidance loss로 이미지와 class의 text 정보를 함께 활용하여 semantic 정보를 더 부여할 수 있도록 하는 것입니다. Noisy 샘플을 찾아내는 것에 대한 필요성을 잘 언급한 연구인 듯 합니다. 비단 이미지 데이터 뿐만이 아닌 다른 유형의 데이터, 특히 리뷰 데이터와 같이 긍부정의 label이 명확하지 않은 데이터에 적용하면 좋을 것 같습니다. 유익한 내용 소개해주셔서 감사합니다.
SeongHee Hong

2024-05-22 17:25

이번 세미나에서는 ProcSim: Proxy-based Confidence for Robust Similarity Learning이라는 연구에 대해 소개해 주셨습니다. 해당 논문에서는 데이터 구축 과정에서 라벨링 오류가 존재하는 경우를 타겟팅한 Metric Learning 프레임워크를 제안했습니다. 해당 프레임워크는 잘못 레이블된 데이터인 Noise Sample에 대응하기 위한 Confidence Score, Unseen Class에 대응하며 Class 간의 Semantic Structure를 반영하기 위한 PLG Loss를 적용하고 있습니다. 구체적으로, ProcSim은 Noise Sample을 식별하기 위해 SuperLoss의 Confidence Score, Proxy-NCA, Otsu’s Method를 활용해 Confidence score를 산출합니다. 이후, 해당 Score를 학습에 반영하여 Noise의 영향은 감소시키고 Clean Sample들만을 Metric Learning에 활용하도록 유도했습니다. 그리고 Class 간의 Semantic Structure를 반영하기 위해, Text Embedding 간의 유사도를 Guidance로 하는 PLG Loss를 적용했습니다. Labeling 자체가 잘못된 경우를 고려하는 연구는 거의 접해보지 못해서 이번 발표가 아주 흥미로웠습니다. 좋은 발표 감사드립니다.
Kiyoon Jeong

2024-05-22 19:04

이번 세미나에서 발표자께서는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning" 연구를소개해주셨습니다. 이 연구는 라벨 오류가 있는 데이터셋에서 노이즈 샘플을 효과적으로 식별하고 이를 학습에서 배제하여 deep metric 학습의 성능을 향상시키는 방법론을 제안합니다. ProcSim은 SuperLoss를 활용한 confidence score와 Proxy-NCA, Otsu’s Method를 사용하여 신뢰도를 평가하고 노이즈 샘플을 분류합니다. 본 방법론의 핵심은 두 가지 손실 함수로, 첫 번째는 confidence score가 반영된 metric learning loss로, 노이즈 샘플의 영향을 줄이고 깨끗한 샘플을 중심으로 학습을 진행합니다. 두 번째는 pseudo language guidance (PLG) loss로, 이미지와 클래스의 텍스트 정보를 결합하여 학습에 의미 정보를 더합니다. 이러한 접근은 노이즈가 많은 환경에서도 높은 성능을 유지하며, 미지의 클래스에 대한 일반화 능력도 강화합니다. 이번 발표는 노이즈 데이터에 robust한 metric 학습 방법론을 이해하는 데 큰 도움이 되었으며, 특히 라벨링 오류를 고려한 학습 방법론의 필요성을 잘 보여주었습니다. 좋은 발표 감사드립니다!
SangMin Lee

2024-05-23 00:18

본 세미나는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning" 논문을 바탕으로 진행되었습니다. 해당 논문은 Confidence score를 기반으로 noisy labeled dataset에서도 정상적으로 metric learning이 가능한 프레임워크를 제안한 논문입니다. 학습 시 가장 중요한 점은 loss function인데, 이는 두 개의 loss term으로 구성 됩니다. 먼저 SSL Loss 파트는 deep metric learning은 대체로 binary similarity에 의존하며, 이는 sample pair가 동일한 class에 있는지 아닌지를 식별합니다. 그러나 unseen class가 포함되어 있는 경우 training class 간 식별이 아닌, semantic similarity 개념을 학습하는 것이 중요하기 때문에, self-supervised regularization loss term을 추가합니다. 여기서 한 가지 더 중요한 개념인 pseudo-label language guidance loss라는 개념이 나오며, 이는 언어적 맥락을 반영함과 동시에 visual similarity 학습에 도움을 주는 역할을 합니다. 또한 가장 중요한 점은 confidence score를 사용하여 noisy/clean을 식별한다는 점입니다. 여러 개념이 적용되는 논문임에도 불구하고, 각 개념에 대한 정의와 특징을 정확히 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.
Woongchan Nam

2024-05-23 03:12

금일 논문 세미나는 'ProcSim: Proxy-based Confidence for Robust Similarity Learning'라는 논문을 소개해 주셨습니다. 해당 논문에서는 Confidence Score를 기반으로 Noisy Labeled dataset에서도 Metric Learning이 접목 가능한 Framework인 ProcSim을 제안하고 있습니다. ProcSim은 크게 3가지로 나뉘어 집니다. 1) Confidence Score에서는 학습 중 Noise를 식별하고 영향을 덜 주기 위해 사용되며 SuperLoss 방법을 차용하되 Noise와 Clean에 따라 명확히 나뉘어지는 Proxy-NCA와 loss에 따라 Noise와 Clean으로 분류할 수 있는 Thresholding 방법인 Otsu's Method를 활용한 방식으로 Confidence Score를 정의하고 있습니다. 2) PLG loss의 경우 Unseen class에 대응하고 class간의 Semantic structure를 반영하고자 Text Embedding들 간의 유사도를 target guidance로 활용하고 있으며 마지막으로 3) Semantically coherent Noise Dataset에서는 Real-world에서의 noisy를 더 반영하고자 유사한 이미지들을 이용한 Noisy Dataset을 새롭게 생성하여 이를 학습에 활용하고 있습니다. PLG의 경우 기존 처음 제안되었던 Language Guidance 두 가지 중, 그 중 왜 PLG만을 채택하였는지 해석이 담아있지 않아 개인적으로 아쉬웠지만 Noisy dataset이라는 세팅에서 DML을 성공적으로 잘 접목한 것 같아 해당 연구가 의미가 있다고 생각했습니다. 끝으로, 이번 세미나를 통해 새로운 개념들을 많이 접할 수 있게 되어 매우 유익했던 것 같습니다. 좋은 발표 감사드립니다!
Junyeong Son

2024-05-23 14:31

이번 세미나는 Confidence Score를 기반으로 Noisy Labeled Dataset에서도 정상적으로 Metric Learning이 가능한 프레임워크인 ProcSim을 제안한 'ProcSim: Proxy-based Confidence for Robust Similarity Learning"이라는 논문을 중심으로 진행되었습니다. 해당 논문에서 제안하는 ProcSim Framework는 학습하는 과정 중 Noise를 인식하고, 학습에 덜 영향을 주기 위해 사용하는 Confidence Score와 주요 목적 함수로써 어떠한 Deep Metric Learning 방법에서도 사용 가능한 DML(해당 논문의 Default는 MS Loss), 그리고 이미지 간의 Semantic Similarity를 학습하기 위한 SSL Loss Term으로 구성됩니다. 해당 프레임워크에서 인상깊었던 부분은, 기존에 사용하던 것과는 다르게 SuperLoss의 Task-Agnostic Confidence Score로부터 Motivate된 Confidence Score였습니다. 여기서 SuperLoss란, 어떠한 Loss 혹은 Task에서도 모델이 학습에 쉬운 혹은 어려운 데이터를 판별한 후, 쉬운 데이터부터 점차 어려운 데이터를 학습해서 모델 성능과 일반화 성능을 향상시키는 학습 방법인 Curriculum Learning을 가능하게 하는 역할을 수행합니다. ProcSim에서는 각 샘플마다의 Confidence, 즉 신뢰도를 평가하기 위해 Noise와 Clean에 따라 명확히 나뉘어지는 Loss Function에 해당하는 Proxy-NCA와 Loss에 따라 Noise와 Clean으로 분류할 수 있는 Otsu's Method를 활용합니다. 결론적으로 Noise 식별을 위한 Confidence Socre를 학습에 반영하여 Noise의 영향은 감소시키고, Clean Data로만 Metric Learning을 수행할 수 있게 됩니다. 발표를 들으며 항상 모델 학습 시 Labeled Data를 활용하는 경우 이 Label에 대해 100% 신뢰를 했었는데, 여기에 Noise가 포함될 수 있으며 이 Noise가 학습 과정에서 악영향을 끼칠 수 있다는 것에 놀랐고, 이를 최소화시킬 수 있는 연구 분야를 처음 접하게 되어 매우 흥미로웠습니다. 좋은 발표 해주셔서 감사합니다.
Siyul Sung

2024-05-23 14:32

이번 세미나에서는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 연구는 mis-labeling으로 인한 noise 데이터가 포함된 학습 데이터셋에서, 신뢰할 수 있는 데이터를 선별하여 Deep Metric Learning을 수행하는 새로운 방법론을 제안하였습니다. ProcSim 방법론의 핵심은 sample 별 confidence score를 산출하여 noise 데이터를 식별하는 것으로 생각합니다. 이를 위해 각 sample에 confidence를 부여하는 Proxy-NCA 방법을 사용하였으며, Gaussian Mixture Model 대신 Otsu의 방법을 통해 noise가 없는 clean 데이터와 noise 데이터를 구분하였습니다. 또한, PLG(Pseudo label Language Guidance) Loss를 도입하여 비슷한 class 간의 유사성을 측정하여, 모델이 더욱 정교한 유사도 학습을 할 수 있도록 하였습니다. 추가로 실험 세팅을 noise 데이터가 특정 이미지에 집중되는 현실적인 시나리오를 고려한 구성하여 ProcSim의 유효성을 입증했다는 점이 인상 깊었습니다. 이러한 실험 세팅을 보며 실제 적용 가능성을 충분히 보여준 연구라 생각하였습니다. 좋은 발표 준비해 주셔서 감사합니다.
Woojun Lee

2024-05-23 15:37

이번 세미나에서는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning" 논문을 소개해주셨습니다. 이 논문에서는 Confidence Score를 기반으로 Noisy Labeled dataset에서도 Metric Learning을 적용할 수 있는 프레임워크인 ProcSim을 제안하고 있습니다. ProcSim은 크게 세 부분으로 구성됩니다. 첫째, Confidence Score는 학습 중에 Noise를 식별하고 그 영향을 최소화하기 위해 사용되며, SuperLoss 방식을 차용하여 Noise와 Clean 데이터로 명확히 나누는 Proxy-NCA와 Otsu's Method를 활용한 Thresholding 방법으로 정의됩니다. 둘째, PLG loss는 Unseen class를 처리하고 클래스 간의 Semantic 구조를 반영하기 위해 Text Embedding들 간의 유사도를 target guidance로 활용합니다. 셋째, Semantically coherent Noise Dataset은 실제 상황에서의 noisy를 더 반영하기 위해 유사한 이미지들을 사용한 새로운 Noisy Dataset을 생성하여 학습에 활용합니다. 개인적으로 PLG가 처음 제안된 Language Guidance 두 가지 중 왜 PLG만 채택되었는지에 대한 해석이 부족한 점이 아쉬웠지만, Noisy dataset 환경에서 DML을 성공적으로 적용한 연구로서 의미가 크다고 생각했습니다. 이번 세미나를 통해 새로운 개념들을 많이 접할 수 있어 매우 유익했습니다. 좋은 발표 감사합니다.
Jinwoo Park

2024-05-23 22:54

금일 세미나는 ProcSim: Proxy-based Confidence for Robust Similarity Learning 논문을 바탕으로 진행되었습니다. 해당 논문에서는 유사한 data point pair를 가깝게, 다른 pair는 멀게 mapping하도록 학습하는 Deep metric learning을 기반으로 하고 있습니다. Deep metric learning은 애초에 superivsed setting 하에서 이루어지기 때문에 clean label을 전제로 하지만, labeling과정에서 오류가 발생했다면 모델에 큰 문제를 야기할 수 있습니다. 이때 해당 논문인 ProcSim에서는 학습 데이터셋에 Noise가 포함되어 있는 경우를 다루고자 새로운 metric learning framework를 제안해주고 있습니다. 해당 연구에서 가장 중요한 부분은 결국 Loss fucntion에서 기인합니다. 가장 먼저 confidence score를 통하여 학습 중 Noise를 식별하고 영향을 덜 주는 방식을 취하고 있으며, Unseen class를 처리하고 class 간 semantic 구조를 반영하고자 text embedding들 간의 유사도를 target guidance로 활용하는 PLG loss를 이용합니다. 기존에 제대로 알지 못했던 Detric learning이라는 분야를 하나하나 자세하게 설명해주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.
JoongHoon Kim

2024-05-23 23:03

이번 세미나에서는 ProcSim: Proxy-based Confidence for Robust Similarity Learning 이라는 논문을 다루었습니다. 이 논문은 라벨 오류가 포함된 데이터셋에서도 신뢰할 수 있는 데이터만을 이용해 효과적으로 Deep Metric Learning을 수행할 수 있는 방법론을 제안합니다. ProcSim의 핵심은 confidence score를 기반으로 noisy sample을 식별하여 학습에서 배제하는 것입니다. 구체적으로 SuperLoss, Proxy-NCA, Otsu’s Method를 활용하여 각 샘플의 confidence score를 산출하고, 이를 통해 noisy sample을 필터링합니다. 또한 PLG(Pseudo Language Guidance) loss를 도입하여 텍스트 정보와 결합된 이미지의 semantic 정보를 학습에 반영함으로써 모델의 성능을 향상시킵니다. 이를 통해 noisy한 환경에서도 높은 성능을 유지하며 unseen class에 대한 일반화 능력을 강화할 수 있습니다. 오늘 세미나에서 학습 데이터의 라벨 오류가 모델 성능에 미치는 영향을 깊이 이해할 수 있었고 이를 효과적으로 대응할 수 있는 다양한 방법론을 접할 수 있는 매우 유익한 시간이었습니다. 좋은 발표 감사합니다.
Saeran Park

2024-05-24 01:38

이번 세미나에서 소개된 "ProcSim: Proxy-based Confidence for Robust Similarity Learning" 논문은 라벨링 오류가 있는 데이터셋에서도 효과적인 메트릭 학습을 수행할 수 있는 프레임워크를 제안하였습니다. 특히, SuperLoss, Proxy-NCA, Otsu’s Method를 활용하여 Confidence Score를 산출하고 이를 기반으로 Noisy와 Clean 샘플을 구분하는 방법은 데이터의 질을 향상시키는 데 중요한 기법으로 보입니다. 또한, PLG Loss를 통해 언어적 맥락과 시각적 유사성을 연계하는 접근은 클래스 간의 의미 구조를 반영하는 새로운 차원의 학습 방법을 제시합니다. 발표자의 명확한 설명 덕분에 복잡한 개념들을 이해하는 데 큰 도움이 되었으며, 이러한 연구가 실제 환경에서의 noisy 데이터 문제를 해결하는 데 어떻게 기여할지 기대가 큽니다. 좋은 발표 감사합니다.
SeungHun Han

2024-05-24 14:41

이번 세미나는 'ProcSim: Proxy-based Confidence for Robust Similarity Learning' 논문을 중심으로 진행되었습니다. 이 논문에서는 Confidence Score를 기반으로 Noisy Labeled Dataset에서도 정상적으로 Metric Learning이 가능한 프레임워크인 ProcSim을 제안합니다. ProcSim Framework는 학습 과정 중 Noise를 인식하고, 학습에 덜 영향을 주기 위해 Confidence Score를 사용하는 방법을 설명합니다. 주요 구성 요소로는 Deep Metric Learning (논문의 기본값은 MS Loss)에서 활용 가능한 DML, 이미지 간의 Semantic Similarity를 학습하기 위한 SSL Loss Term이 있습니다. 특히 인상적이었던 부분은 기존과 달리 SuperLoss의 Task-Agnostic Confidence Score를 기반으로 한 Confidence Score였습니다. SuperLoss는 어떤 Loss나 Task에서도 모델이 쉬운 데이터부터 점차 어려운 데이터를 학습하게 하여 모델의 성능과 일반화 능력을 향상시키는 Curriculum Learning을 가능하게 합니다. ProcSim에서는 Noise와 Clean 데이터를 명확히 구분하는 Loss Function인 Proxy-NCA와 Otsu's Method를 활용하여 각 샘플의 신뢰도를 평가합니다. 결론적으로, Noise 식별을 위한 Confidence Score를 학습에 반영하여 Noise의 영향을 줄이고 Clean Data로만 Metric Learning을 수행할 수 있게 합니다. Metric Learning 관련해서 연구를 고려하는 입장에서 매우 유익했습니다. 좋은 발표 감사합니다.
Jaewon Cheon

2024-05-24 20:41

이번 세미나에서는 기존 Representation Learning 시나리오 상황 속, Noisy한 라벨로부터 받는 큰 영향을 줄이는 것에 초점을 맞춘 "ProcSim: Proxy-based Confidence for Robust Similarity Learning" 논문을 중심으로 진행되었습니다. 요점은 Noise를 필터링하기 위한 Confidence Score(Threshold)를 Superloss로부터 착안하여 가져오게 되었고, 이를 통해 Noisy한 데이터의 학습 영향을 덜 받도록 하였다는 점에 있습니다. 이와 관련하여, 모델이 산출한 logit을 기반으로 해 Threshold를 정하게 되는데, 이를 최적화하기 위해 Otsu's Method를 사용합니다. 더하여, 이러한 Metric Learning 세팅에서 각 샘플 간의 유사도가 아닌, 중심적인 Proxy를 잡고, 이에 가깝게 Mapping하는 것을 학습시킴으로서 Clean과 Noise의 차이를 더욱 명확히 하는 임베딩을 산출하고자 하였습니다. 원래는 Classification Model의 Logit값이 낮으면, 이를 '학습해야 하지만 어려운 샘플'로 간주하여, 더 많은 weight를 주어 학습하는 Focal Loss와 같은 개념이 더 익숙한 편이었는데, 본 논문 및 Noisy Data에 대해 다루는 접근들은 오히려 Logit이 낮은 샘플의 경우, '학습하면 안 되는 노이즈 샘플'로 간주하여 이 영향을 반대로 최소화 하고자 한다는 점이 신기하게 느껴졌습니다. 추가로, 아무래도 Noisy Data가 있는 상황에서의 강건한 모델을 가져가는 것이 본 논문의 핵심이었다보니, 성능 리포팅도 Noisy Data를 만든 다음 이에 대한 성능만 리포팅이 되어있었는데, 개인적으로는 Noisy Data가 아예 없는 상황, 혹은 매우 적은 일반적인 상황에서도 잘 작동하는지 궁금했던 논문이었습니다. 좋은 발표 감사합니다!
Jiyoon Lee

2024-05-24 23:57

이번 세미나에서는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning"에 대해 소개해주셨습니다. 해당 논문은 실제 데이터 분석 상황에서 흔히 겪을 수 있는 라벨링 데이터에 포함된 노이즈 에러와 관련된 문제에 집중하고 있습니다. 특히 기존 관련 방법론들의 경우 이러한 노이즈를 고려하는 경우가 존재하나, 노이즈들의 분포와 관련된 포인트는 고려하지 않고 있음을 지적합니다. 이에 연구에서는 각 데이터가 노이즈인지 그 여부에 대해 판단하기 위한 목적으로 별도의 loss를 활용합니다. 각 샘플 별 confidence를 계산하고 이를 반영하여 학습을 수행하게 됩니다. 특히나 학습이 아닌 테스트 단계에서 등장할 수 있는 또 다른 unseen class의 경우에는 이와 관련한 semantic structure를 반영해야 한다는 주장을 담고 있으며, 이를 위해 self-supervised learning loss인 PSG loss를 활용하게 됩니다. 데이터에 포함된 노이즈와 관련하여 어떤 처리를 진행하는 것이 효과적일지에 대해 고민해볼 수 있던 시간이었습니다. 좋은 발표 감사드립니다.
Hyeongwon Kang

2024-05-23 23:00

이번 세미나에서는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning" 논문을 소개해 주셨습니다. 이 논문은 라벨링 오류가 있는 데이터에서 Metric Learning을 적용할 수 있는 프레임워크인 ProcSim을 제안합니다. ProcSim은 크게 세 가지 요소로 구성됩니다. 첫째, Confidence Score는 SuperLoss 방식을 차용하여 학습 중에 노이즈 데이터를 식별하고 영향을 줄이기 위해 사용됩니다. 이를 위해 Proxy-NCA와 Otsu's Method를 활용해 노이즈와 클린 데이터를 명확히 구분합니다. 둘째, PLG Loss는 보이지 않는 클래스(Unseen Class)를 처리하고 클래스 간의 의미 구조를 반영하기 위해 텍스트 임베딩 간의 유사도를 타겟 가이드로 사용합니다. 셋째, 실제 상황의 노이즈를 더 잘 반영하기 위해 유사한 이미지들을 사용하여 새로운 노이즈 데이터셋을 생성하고 이를 학습에 활용합니다. 노이즈 데이터 환경에서 DML을 성공적으로 적용한 연구로서 의미가 크다고 생각합니다. 이번 세미나를 통해 새로운 개념들을 많이 배울 수 있어 매우 유익했습니다. 좋은 발표 감사합니다.
Jaehee Kim

2024-05-12 18:03

금일 세미나는 Similarity Learning 시 label이 오염된 데이터에 대한 강건한 학습 방법론을 제안하는 "ProcSim: Proxy-based Confidence for Robust Similarity Learning"을 중심으로 진행되었습니다. 해당 방법론은 기존 모델이 생성하는 confidence를 사용하지 않고, superloss를 차용하여 confidence를 산출하게 됩니다. 해당 confidence가 낮은 데이터의 경우엔 잘못 labeling되엇을 수 있으므로 학습에 악영향을 미치게 됩니다. 또한, clean label이 아닌 데이터들이 포함된 경우 metric learning에 큰 악영향을 미치게 되므로, proxy를 이용하여 이러한 영향력을 감소시키고자 했습니다. 그 결과 실제 성능 측면에 있어 레이블이 오염되었을 경우 높은 성능을 도달할 수 있는 것으로 나타났습니다. 또한, 레이블이 오염되지 않은 경우에도 준수한 성능을 보이면서 강건한 모습을 보이고 있습니다. image-text pair를 이용한 학습 방법론들이 공통적으로 다양한 방법을 통하여 data filtering에 많은 공을 들이는데 해당 연구 역시 비슷한 맥락에서 생각해볼 수 있을 것 같습니다.
Minjeong Ma

2024-05-14 15:10

이번 세미나에서는 데이터의 라벨 오류를 깔끔하게 처리하여 Deep Metric 학습을 개선하는 방법론인 'ProcSim: Proxy-based Confidence for Robust Similarity Learning' 에 대해서 발표해 주셨습니다. 해당 논문에서는 기존의 Noise 데이터 처리 방식과는 달리 Noise가 특정 이미지에 집중되는 현상을 고려해 다양한 실험을 설계했습니다. 특히, 각 샘플의 신뢰도를 평가하기 위해 Proxy-NCA를 사용하고, Otsu의 방법을 이용해 Clean 데이터와 Noisy 데이터를 구분하는 접근법이 매우 인상깊었습니다. 이는 기존 Gaussian Mixture Model을 사용하는 방법의 한계를 극복하고, 보다 정밀한 데이터 처리가 가능하게 하였습니다. 또한, PLG(Pseudolabel Language Guidance) Loss를 추가하여, 비슷한 클래스에 속하는 샘플 간의 유사성을 효과적으로 측정할 수 있도록 하였습니다. 해당 연구는 노이즈가 많은 실제 환경에서도 효율적으로 학습할 수 있는 강력한 기초를 제공하며, 특히 학습 시 실제로 보지 않은 Unseen Class에 대해서도 강한 성능을 보여줄 것이라고 기대됩니다. 지금까지는 잘 정제된 데이터만 가지고 와서 사용하였기 때문에 데이터 셋에 노이즈가 있는 경우 어떻게 걸러내야 하는지 생각해 본 적이 없었는데 이번 세미나를 통해 많은 방법론과 해당 방법론의 장단점을 알 수 있어 매우 유익했습니다. 좋은 발표해 주셔서 감사합니다.

« [Paper Review] Learning to Filter Context for Retrieval-Augmented Generation

[Paper Review] Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors »

목록보기

전체 556

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15391	관리자	2020.03.12	0	15391
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 14128	관리자	2020.03.12	0	14128
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15083	관리자	2020.03.12	0	15083
553	[Paper Review] Why CLIP fails at Dense Prediction Task? (2) Jinwoo Jang \| 2026.04.06 \| 추천 0 \| 조회 51	Jinwoo Jang	2026.04.06	0	51
552	[Paper Review] Dynamic Large Concept Models (8) Jaeyong Ko \| 2026.03.30 \| 추천 0 \| 조회 130	Jaeyong Ko	2026.03.30	0	130
551	[Paper Review] Programming Refusal with Conditional Activation Steering (15) Sunmin Kim \| 2026.03.10 \| 추천 0 \| 조회 391	Sunmin Kim	2026.03.10	0	391
550	[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9) Sunghun Lim \| 2026.03.01 \| 추천 0 \| 조회 326	Sunghun Lim	2026.03.01	0	326
549	[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9) Suyeon Shin \| 2026.02.25 \| 추천 0 \| 조회 240	Suyeon Shin	2026.02.25	0	240
548	[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10) Jaehyuk Heo \| 2026.02.12 \| 추천 0 \| 조회 493	Jaehyuk Heo	2026.02.12	0	493
547	[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9) Hyeongwon Kang \| 2026.02.10 \| 추천 0 \| 조회 474	Hyeongwon Kang	2026.02.10	0	474
546	[Paper Review] Introduction to Neural Operator (10) Hankyeol Kim \| 2026.02.03 \| 추천 0 \| 조회 579	Hankyeol Kim	2026.02.03	0	579
545	[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13) Sieon Park \| 2026.01.29 \| 추천 0 \| 조회 579	Sieon Park	2026.01.29	0	579
544	[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13) Subeen Cha \| 2026.01.28 \| 추천 0 \| 조회 386	Subeen Cha	2026.01.28	0	386

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호