번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10294
|
관리자 | 2020.03.12 | 0 | 10294 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 8909
|
관리자 | 2020.03.12 | 0 | 8909 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10019
|
관리자 | 2020.03.12 | 0 | 10019 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (1)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 29
|
Sunghun Lim | 2025.04.24 | 0 | 29 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 50
|
Suyeon Shin | 2025.04.21 | 0 | 50 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 114
|
Woongchan Nam | 2025.04.16 | 0 | 114 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 205
|
Kiyoon Jeong | 2025.04.16 | 0 | 205 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 284
|
Hyeongwon Kang | 2025.04.09 | 0 | 284 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 281
|
Jaehyuk Heo | 2025.04.02 | 0 | 281 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 273
|
Jaehee Kim | 2025.04.02 | 0 | 273 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 252
|
Jungho Lee | 2025.04.02 | 0 | 252 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 245
|
Hankyeol Kim | 2025.03.25 | 0 | 245 |
489 |
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park
|
2025.03.19
|
추천 0
|
조회 354
|
Sieon Park | 2025.03.19 | 0 | 354 |
이번 세미나에서는 Imbalanced Data와 관련된 논문인 “Learning From Imbalanced Data with Deep Density Hybrid Sampling”에 대해 소개해주셨습니다. 일반적인 ML 알고리즘은 불균형 데이터에 대해 Majority Class에 Bias 되지만, 실제 주요 Target 은 Minority class인 경우가 대부분입니다. 이러한 문제를 해결하기 위한 방법으로 Sampling 방법과 Algorithm 방법이 있으며 가장 많이 사용되는 SMOTE는 Euclidean Distance를 이용하기 때문에 고차원에서 좋지 않다는 문제가 있습니다.
논문에서 제안하고 있는 DDHS는 고차원 데이터의 문제를 해결하고자 합니다. DDHS는 오토인코더 구조를 사용하고 있으며 3개의 loss function을 사용합니다. reconstruct loss 는 Project 된 데이터 포인트에 대해 Latent space를 분리할 수 있게 만들고자 합니다. 또한 Bottle neck의 latent space의 차원은 Original Feature space 대비 훨씬 작기 때문에 SMOTE의 문제점인 고차원 문제를 완화하고자 했습니다. crossentorpy loss 또한 사용하고 있기 때문에 후속 분류 Task에 대해서 Benefit을 갖고 있습니다. 오토인코더가 Sampling에서도 사용할 수 있다는 점이 인상적이었으며, 오토인코더의 활용도는 무궁무진한 것 같습니다.
이번 세미나는 Learning From Imbalanced Data With Deep Density Hybrid Sampling 논문에 대한 소개를 해주셨습니다. 세미나를 통해 배경지식으로 imbalanced data 해결을 위한 크게 세 가지 방법으로 data-, algorithm-level, 그리고 ensemble 방법으로 나누어짐과 이를 평가하하기 위한 지표에 대하여 알게될 수 있던 좋은 시간이었습니다. 기존에는 가장 잘알려진 SMOTE에 대한 내용과 단순 cost에 weight를 주는 것에 대해서만 알고있었는데 그 외에도 많은 방법이 연구되고 있다는 사실을 알게되었습니다. 이번 논문에서 소개된 Deep Density Hybrid Sampling (DDHS)는 SMOTE 방법은 euclidean distance를 사용하기 때문에 고차원에서는 좋지 못하다는 한계점을 개선하고 단순히 majority class와 minority class 중 하나를 sampling하는 것이 아닌 두 class를 함께 sampling하여 균형을 맞춰줄 수 있는 방법입니다. DDHS는 autoencoder를 사용하여 feature를 latent space에 반영되도록 학습하고 지도학습 방식을 통해 각 class에 대한 정보를 반영하였습니다. 크게 세 가지 손실함수인 reconstruction, cross-entropy, center loss를 사용하여 학습이 완료된 latent space를 sampling에 활용하였습니다. Latent space에서는 KDE를 활용하여 majority class 중 low quality sample은 제거하고 minority class 중 high quality sample은 선택하여 sampling을 수행합니다. 실험에서는 손실함수에 대한 ablation study를 정성적으로 시각화하여 latent space의 PCA 분포를 보인것이 인상깊었습니다. 명확한 차이가 나타나는 점에서 제안한 손실함수의 역햘을 볼 수 있었습니다. 좋은 발표 감사합니다.
오늘 세미나에서는 Learning From Imbalanced Data With Deep Density Hybrid Sampling 논문 소개가 있었습니다. 본 논문에서는 Deep Density Hybrid Sampling 이라는 기법을 제안하여 데이터 불균형 문제를 해결하려고 했습니다. 먼저 reconstruction을 통해 데이터를 저차원으로 매핑하는 네트워크를 학습하고 class proximity를 학습하기 위해 cross-entropy loss, center loss를 제안하였습니다. 그리고 density based filtering을 통해 high quality minority sample을 선택하고 low quality majority sample을 제거하는 방식의 hybrid 형태로 oversampling과 undersampling을 수행했습니다. 딥러닝 네트워크에서 효과적인 데이터 불균형 해소법을 잘 제안했다는 생각이 들었습니다. Data imbalance 에 대한 최신 방법론을 접할 수 있어 흥미로웠고, 앞에서 imbalanced data 평가 metric도 잘 정리해주셔서 유익했습니다. 좋은 발표 감사합니다.
금일 세미나에서는 real world data에서 흔하게 볼 수 있는 imbalanced data를 처리하는 방식을 제안한 Learning From Imbalanced Data With Deep Density Hybrid Sampling에 대해 살펴보았습니다. 본 연구에서는 차원에 관련된 선행 연구의 문제점을 지적하며 이를 해결하기위해 데이터를 저차원으로 매핑하는 네트워크를 학습합니다. 뿐만 아니라 cross-entropy loss와 center loss를 추가로 사용하여 네트워크를 학습합니다. 이후 density를 고려할 수 있는 방법론을 통해 high quality sampling을 진행합니다. 새롭게 제안하는 방법론은 없다고 볼 수 있지만, 존재하는 것들을 잘 사용하여 꼭 풀어야 하는 문제를 해결 할 수 있는 파이프라인을 제안한 좋은 연구라는 생각이 들었습니다. 그리고 백그라운드 설명도 해주셔서 많은 것들을 배울 수 있었습니다.
금일 세미나는 "Learning From Imbalanced Data With Deep Density Hybrid Sampling"라는 주제로 진행되었습니다. 본 발표에서는 auto-encoder 기반의 embedding network를 활용하여 classification task의 imbalance 문제를 해결한 Deep Density Hybrid Sampling이 소개되었습니다. 연구 데이터에는 imbalance 문제가 거의 없지만 프로젝트를 진행하면서 꽤 자주 imbalance가 심한 현업 데이터를 마주하기 때문에 관심이 가는 발표였습니다. 해당 방법론은 density-based filtering을 통해 minority class를 over-sampling하고 majority class를 under-sampling하는 hybrid 방식을 제안하였습니다. 또한, 그 과정에서 center loss로 auto-encoder를 학습하여 latent vector가 class proximity 속성을 잘 유지할 수 있도록 강제하고 해당 latent vector를 기반으로 sampling을 진행함으로써 기존 제안 방법론들이 고차원 데이터에서 성능이 저하되는 문제를 보완하였습니다. 개인적으로는 어렵지 않은 방법들을 잘 조합하고 적용하여 기존 방법론들의 한계점을 극복했다는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 불균형 데이터를 효과적으로 다룰 수 있는 방법론을 주제로 다루어졌습니다. 가장 대표적으로 minority 클래스의 샘플의 oversampling 방법 중 SMOTE 기법과 SMOTE의 응용된 버젼들이 있습니다. 또한 모델의 cost에 가중치를 달리 설정하여 학습하는 방법도 자주 활용되는 방법이며 SMOTE와 앙상블 류 모델을 활용하는 방안도 실용성이 높다고 평가 됩니다. 발표자분께서 소개해주신 본 방법론은 Deep Density Hybrid Samlping으로 Minority class에는 Over sampling을 Majority class에는 Under sampling을 적용하는, 말 그대로 Hybrid sampling을 실시하는 방법론 입니다. 발표자 분 말씀대로 코드가 있었다면 직접 한 번 실험을 진행해보고 싶습니다. 한편, 발표자 분께서 불균형 데이터 셋에 대한 분류 결과 평가 metric에 대해서 소개해주신 덕분에 앞으로 실제 불균형 데이터를 접할 때 활용해 보고자 합니다. 유익한 내용의 발표 준비해주셔서 감사합니다.
이번 세미나에서는 Learning From Imbalanced Data With Deep Density Hybrid Sampling라는 논문을 다루었습니다. 불균형 데이터의 문제를 해결하기 위해 흔히 사용되는 방법인 over-sampling, under-sampling, smote 등의 문제를 제기하면서 본 논문에서 제안하는 DDHS가 이 문제를 어떤 식으로 해결하는지 단계적으로 보여주는 방식이 좋았습니다. Autoencoder로 구성된 embedding network를 통해 class proximity를 유지하고 이를 3가지 loss function을 결합하여 사용함으로써 smote의 문제점인 고차원에서 잘 작동하지 않는다는 문제점을 해결했습니다. 또한 minority class에는 over-sampling을 적용하고 majority class에는 under-sampling을 적용함으로써 overfitting과 중요 information 삭제 문제를 해결했습니다. 최근에는 특정 task에 관한 방법론에 대한 연구가 중심이 되고 있는데 현실 세계에서는 데이터 불균형 문제가 많습니다. 따라서 연구 단계에서 데이터 불균형에 대한 평가를 하는 것이 쉽지는 않지만 실용적인 면에서는 중요한 연구 분야인 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
본 세미나에서는 Learning From Imbalanced Data With Deep Density Hybrid Sampling라는 주제에 대한 논문의 리뷰를 진행하였습니다. 불균형 데이터를 해결하기 위한 많은 방법론에서 Class 간의 관계를 고려하지 않는 부분에 대한 motivation으로 본 논문의 연구가 시작되었습니다. 일반적으로 불균형 데이터의 경우 Majority Class 에 Bias 되지만, 실제 주요 Target 은 Minority Class 인 경우가 대부분입니다. Anomaly detection의 경우를 생각해보면 우리가 관심 있는 부분은 정상이 아닌 anomaly이지만, 실제로 anomaly 데이터의 극소수입니다. 따라서 본 방법론은 Minority Class = Over-sampling, Majority Class = Under-sampling 하는 Hybrid Approach인 Deep Density Hybrid Sampling 제안하였습니다. 잠시 현업에서 종사할 때 설비 불량을 예측하는 프로젝트를 진행했던 경험이 있었습니다. 설비의 불량이 자주 일어나는 이벤트가 아니기 때문에 data imbalanced 문제가 굉장히 심했었고, smote를 이용하였지만 큰 효과가 없었던 것으로 기억합니다. 그 때 본 논문을 알았더라면 조금 더 좋은 결과가 있지 않았을까 생각됩니다. 현업에서 정말 자주 사용될 수 있는 실용적인 방법론이라는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나에선 Learning From Imbalanced Data With Deep Density Hybrid Sampling(DDHS) 이라는 연구에 대해 소개되었습니다. Imbalanced data는 프로젝트 수행 시 빈번하게 발생하는 문제 상황이고, 소수 class를 잘 학습하기 위한 방법으로 oversampling, downsampling, weighted loss 등이 잘 알려져 있습니다. 이번 세미나에선 불균형 데이터를 다루기 위한 기존 연구들을 data-level과 algorithm-level로 나누어 정리해주셨는데 SMOTE와 여러 변형들에 대해, ML 알고리즘에서 소수 class에 가해진 weight에 대해 이해할 수 있는 유익한 시간이었던 것 같습니다.
논문에서 제안하고 있는 DDHS는 기존의 SMOTE가 고차원 데이터에서 적합하지 않다는 점을 보완하기 위해 sampling 이전에 별도의 embedding network를 사용하게 됩니다. 학습가능한 이 embedding network는 data point를 저차원의 separable latent space로 projection하는 역할을 하고 projection space 상에서 멀리 떨어진 데이터 포인트에 더 큰 penalty를 부여하는 것으로 소수 class에 집중하게 됩니다. 비교적 간단한 아이디어로 기존 연구들의 한계를 극복하면서 성능향상이 두드러지는 점이 눈에 띄는 연구였던 것 같습니다. 좋은 세미나 발표 감사합니다.
이번 세미나는 Learning From Imbalanced Data With Deep Density Hybrid Sampling을 주제로 진행되었습니다. 기존의 imbalanced data를 다루는 방법론들이 class 간의 관계를 고려하지 않거나 단순 euclidean distance를 이용하는 방법은 고차원에서 좋지 않다는 한계점을 들고 data-level의 deep density hybrid sampling 방법을 제안하였습니다. DDHS는 reconsturction, cross-entropy, center loss 3가지 loss function을 통해서 각 class에 대한 정보를 잘 학습하여 representation을 생성하도록 하였습니다. 이렇게 embedding network training 후 데이터들이 latent space에 project된 상태에서 high density 영역에 있는 데이터 포인트들을 high quality 데이터로 정의하고 해당 데이터들의 feature 값을 무작위로 select하여 synthetic 샘플을 생성하였습니다. 그 뒤 생성된 샘플이 minority class에 가까운지, 반경 안에 있는지 두 기준을 통해 샘플의 품질을 검증하고 만족 시 사용하는 방법입니다. 기존 Imbalanced data를 다루는 방법들에 대해서는 알고 있었지만 deep learning network를 활용한 방법론에 대해 처음 접하게 되어 유익하였으며, 기존의 imbalanced data를 다루는 방법들에 대해서도 a to z 자세히 설명해주셔서 좋았습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Learning From Imbalanced Data With Deep Density Hybrid Sampling 논문을 다루어 주셨습니다. 해당 논문에서는 class가 불균형한 데이터를 다루기 위한 DDHS (Deep Density Hybrid Sampling) 방법론을 제안하고 있습니다. 기존에 불균형한 데이터를 다루기 위한 방법론들인 over-sampling, under-sampling은 overfitting이나 중요한 정보가 삭제되는 한계를 갖고 있었습니다. 제안하고 있는 DDHS 방법론은 학습 가능한 임베딩 네트워크를 이용하여 데이터를 저차원 공간으로 사영시키는 방법이며, 해당 방법을 이용하여 latent 공간의 모든 데이터 포인트가 class proximity 속성을 유지하게끔 하고 있습니다. 데이터셋에 라벨이 부여되어 있는 경우에는 학습 과정에서 라벨 정보를 고려하여 예측 성능을 향상시키도록 하고 있습니다. Loss function에는 reconstruction loss, cross-entropy loss, center loss 3개로 이루어집니다. 또한 Density에 기반한 filtering을 이용하게 되는데 고품질 데이터를 선택하는 기준으로 density를 사용하는 것을 의미합니다. Feature 기반 over-sampling 이용시 synthetic 샘플 생성을 위해 feature값들을 무작위로 선택하게 되고 다양성을 최대화할 수 있게 됩니다. 좋은 발표 감사합니다!
이번 세미나는 IEEE 2022에 공개된 Learning From Imbalanced Data With Deep Density Hybrid Sampling 논문으로 진행되었습니다. 해당 논문은 현재 불균형 데이터 문제 해결을 위해 활용되고 있는 대부분의 방법론들이 Euclidean Distance를 사용하는 SMOTE에서 파생했기 때문에 고차원에서 정확한 Distance Metric이 아닌 점을 지적하며 데이터셋 차원에 무관하게 좋은 결과를 보이는 Deep Density Hybrid Sampling을 제안했습니다. Deep Density Hybrid Sampling이란 Autoencoder 기반의 Embedding Network를 활용해 Minority Class에 대해선 Over-sampling하고 Majority Class에 대해선 Under-sampling하는 접근법으로, 세 가지 Loss Term (CE, Center, Reconstruction)으로 학습이 진행됩니다. 데이터 불균형 문제 해결을 위한 SMOTE 기법을 들어보기만 했는데 SMOTE의 한계와 해당 한계를 극복하기 위한 새로운 접근법을 알아갈 수 있었던 유익한 발표였습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Learning From Imbalanced Data With Deep Density Hybrid Sampling (IEEE 2022)논문을 중심으로 전통적인 Imbalanced Data를 처리하는 방식과 논문에서 제안하는 DDHS에 대해 설명해 주셨습니다. Imbalanced Data 상황에 적용하는 전통적인 해결책은 Over- & under-Sampling을 통해 class 균형을 맞추는 Data-Level Methods, Minority Class를 더 강조할 수 있는 Cost를 사용하는 Algorithm-Level Methods, Bagging이나 boosting계열 방식을 사용하는 Ensemble Methods가 있습니다. 특히 가장 보편적으로 사용되며 다수의 Sampling 기법의 기반이 되는 SMOTE는 Euclidean distance를 기반으로 새로운 point를 생성하기 때문에 고차원의 데이터에서는 성능이 좋지 않음을 지적합니다. 반면 논문에서 제안하는 Deep Density Hybrid Sampling (DDHS)는 autoencoder 학습을 통해 데이터를 latent space로 projection하고, 여기서 각 class에 대한 정보를 반영한 sampling을 수행하기 때문에 SMOTE의 고차원 문제에서 보다 자유로울 수 있습니다. 구체적으로는 autoencoder의 reconstruction loss 이외에도 데이터의 범주를 분류하는 cross-entropy loss와 동일한 class끼리 가까워지도록 하는 center loss를 사용합니다. 이후 학습 결과 mapping된 저 차원 공간에서 KDE를 활용하여 밀도가 높은 High Quality 데이터 포인트만을 사용하여 sampling이 수행됩니다. 불균형 데이터를 처리하는 것이 중요하다고는 생각하고 있었지만, 단순히 유명한 방법을 사용할 뿐이었는데 이번 세미나를 통해 방법론들을 확실히 정리할 수 있었고, 오토 인코더까지 사용하는 보다 적극적인 방법들이 있다는 것을 알게 되었습니다. 좋은 발표 감사합니다.
이번 세미나는 Learning From Imbalanced Data With Deep Density Hybrid Sampling 이었습니다. 해당 논문은 Imbalance 한 데이터를 가지는 상황에서 데이터 증강 기법을 제안하고 있습니다. 특히 Tabular 데이터를 다루고 있는데, 기존의 SMOTE와 같은 방법론이 가지는 한계점을 지적하고 이를 해결하려고 한 논문이었습니다. 우선 데이터를 Auto Encoder를 통해 저차원으로 맵핑하고, 해당 차원에서 각 클러스터(클래스)의 중심에 위치하면서, minority class에 있는 데이터일 수록 샘플링될 확률을 높이는 방식을 취합니다. 또한, 이 과정에서 Auto Encoder가 각 클래스의 분포를 잘 표현하면서 클러스터링이 이루어질 수 있도록 세가지 손실함수를 사용하고 있습니다. 상당히 단순한 발상을 일련의 파이프라인으로 구성한 점을 보면서 실제 방법론은 결국 주어진 문제를 잘 정의하고 이에 맞는 알고리즘을 구성하는 것이 중요하다는 점을 알 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 “Learning From Imbalanced Data With Deep Density Hybrid Sampling” 논문에 대해 소개해 주셨습니다. 해당 논문에서는 Class Label의 분포가 불균형한 데이터에 적용 가능한 새로운 방법론인 DDHS를 제안했습니다. 학부 과정 동안 헬스 케어 관련 머신러닝 모델링을 하면서 Oversampling, Undersampling 및 SMOTE 방법론은 사용해보았는데, 이번 발표의 Background를 통해 Data/Algorithm-Level Method의 세부 방법론에 대해 알 수 있어 새로웠습니다. 이번 논문에서 제안된 방법론인 DDHS는 AutoEncoder를 통해 Feature들을 Latent Space로 Projection하여 널리 사용되는 방법론인 SMOTE의 High-dimension 문제를 완화했다는 점에서 Main Contribution이 있는 것 같습니다. 또한 Loss function으로 Cross-Entropy Loss, Center Loss, Reconstruction Loss의 합을 사용했는데, 실험 결과에서 Loss Term을 하나씩 제외했을 경우의 결과를 시각화하여 각 Loss Term이 어떤 역할을 하는지 시각적으로 보여주어 직관적인 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다.
이번 세미나는 “Learning From Imbalanced Data With Deep Density Hybrid Sampling” 논문을 주제로 진행해주셨습니다. class label 분포가 균등하지 않은 데이터셋에서는 학습이 불안정하기 때문에 최적의 모델 파라미터를 학습하는 것이 어려운데 본 논문에서는 이 문제를 다루기 위한 방법론을 제안하였습니다. 본 논문에서 제안한 DDHS라는 방법론은 AE를 통해 encoding된 feature에 SMOTE 방법론을 적용하였는데, 이를 통해 고차원의 저주 문제를 해결하고, 좀 더 유의미한 정보를 담은 class별 데이터셋을 증강할 수 있다는 장점이 있습니다. 실험 결과를 통해서도 이러한 방법론이 효과적임을 보였는데, class 불균형한 문제뿐만아니라 데이터 증강이 필요한 다른 task에도 충분히 적용 가능한 아이디어라는 생각이 들었습니다. 좋은 발표 감사드립니다.
이번 세미나는 Learning from imbalanced data with deep density hybrid sampling 논문을 바탕으로 진행되었습니다. 이는 불균형 데이터에 대한 Sampling 방법론에 대해서 다루고 있습니다. 먼저 불균형 데이터셋은 Class 변수가 균일하게 분포하지 않고 하나의 값에 치우친 편향적인 데이터를 의미합니다. 많은 산업 분야에서도 실제 데이터들은 이러한 불균형한 데이터 분포를 보이므로, 불균형 데이터를 다루는 것은 매우 중요합니다. 오늘 다루는 논문에서는 Data-level method 중에서도 Sampling 방법을 취하는데, 특히 Over-sampling과 Under-sampling 방법을 결합한 Combination 방법을 사용하고 있습니다. 해당 논문에서 제시하는 DDHS는 먼저 Auto Encoder의 확장 형태인 Embedding network를 통해서 Original space 내의 데이터를 Latent space로 project 시킨 후 존재하는 Minority class 데이터를 Density based Filtering을 통하여 High quality 데이터만을 뽑아냅니다. 이후 이를 oversampling 하여 샘플링 개수를 늘려주고, 검증하여 최종적으로 소수 데이터의 개수를 늘려주는 과정을 거칩니다. 데이터 불균형은 딥러닝 네트워크 학습에 치명적일 수 있는데, 해당 논문에서는 이러한 문제를 해결하기 위하여 다양한 방법론을 결합하여 최종적으로 좋은 성능을 보였습니다. 이는 현업에서 실용적으로 사용될 수 있는 아이디어라는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.
이번 세미나는 Learning From Imbalanced Data With Deep Density Hybrid Sampling 이었습니다. 해당 논문은 Imbalance 한 데이터를 가지는 상황에서 데이터 증강 기법을 제안하고 있습니다. 기존의 SMOTE와 같은 방법론이 가지는 한계점을 지적하고 이를 해결하려고 한 논문이었습니다. class label 분포가 균등하지 않은 데이터셋에서는 학습이 불안정하기 때문에 최적의 모델 파라미터를 학습하는 것이 어려운데 본 논문에서는 이 문제를 다루기 위한 방법론을 제안하였습니다. AE를 통해 encoding된 feature에 SMOTE 방법론을 적용하였는데, 이를 통해 고차원의 저주 문제를 해결하고, 좀 더 유의미한 정보를 담은 class별 데이터셋을 증강할 수 있다는 장점이 있습니다.
이번 세미나는 imbalanced data의 해결 방안으로 제안된 논문 Learning From Imbalanced Data With Deep Density Hybrid Sampling을 주제로 진행되었습니다. 본 논문은 불균형 데이터를 해결하기 위해 제안된 기존 방법론들이 majority, minority와 같은 class 간 관계를 고려하지 못하고 있다는 점을 지적하며 오토인코더 기반의 hybrid 샘플링 방식 Deep Density Hybrid Sampling을 제안하고 있습니다. 이를 통해 data projetion 중 class의 proximity를 유지함으로써 저차원의 공간에서도 학습을 가능케 하고, 유클리디안 거리를 활용하는 SMOTE 기반 over sampling 방식의 단점으로 지적되던 고차원 문제도 해결하고자 하였습니다. 실제 Linear SVM/Regression의 성능 평가 진행 시 SOTA 기록을 달성했다는 점이 인상 깊었고, 상황에 맞게 CE를 비롯한 Center, Reconstruction loss를 도입하여 성능 향상을 도모하였습니다. 또한, Boosting 기법을 활용하여 앙상블 학습 세팅도 설게하였고, 많은 양의 실험을 통해 데이터셋의 차원에 관한 좋은 성능을 기록하였습니다. 불균형 데이터는 현실 세계와 맞앟아 있는 문제로 평소에도 해결 방안에 대해 궁금한 점이 많았는데 본 세미나를 통해 어느정도 궁금증을 해소할 수 있었던 것 같습니다. 유익한 세미나 진행해주셔서 감사합니다.