번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10488
|
관리자 | 2020.03.12 | 0 | 10488 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9097
|
관리자 | 2020.03.12 | 0 | 9097 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10213
|
관리자 | 2020.03.12 | 0 | 10213 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 51
|
Junyeong Son | 2025.05.08 | 0 | 51 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 117
|
Doyoon Kim | 2025.05.01 | 0 | 117 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 224
|
Sunghun Lim | 2025.04.24 | 0 | 224 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 174
|
Suyeon Shin | 2025.04.21 | 0 | 174 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 195
|
Woongchan Nam | 2025.04.16 | 0 | 195 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 385
|
Kiyoon Jeong | 2025.04.16 | 0 | 385 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 398
|
Hyeongwon Kang | 2025.04.09 | 0 | 398 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 395
|
Jaehyuk Heo | 2025.04.02 | 0 | 395 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 391
|
Jaehee Kim | 2025.04.02 | 0 | 391 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 316
|
Jungho Lee | 2025.04.02 | 0 | 316 |
이번 세미나에서는 Tabular 데이터의 딥러닝과 관련된 논문인 Why do tree-based models still outperform deep learning on typical tabular data를 소개 해 주셨습니다. 본격적인 논문 설명에 앞서 Tabular와 비전, NLP가 Inductive bias관점에서 어떤 차이가 있는지 설명해주셨는데 이 부분이 인상 깊었습니다. 대체로 딥러닝은 데이터에 Inductive bias를 주입하는 방식으로 발전 해 왔고 대표적인 것이 CNN 입니다. kernel filter를 통해 local feature를 추출하며, bottom layer에서는 더욱 local한 feature, top layer에서는 global 한 feature를 추출하는 것이 특징입니다. 하지만 Tabular data의 경우 inductive bias를 주입하는 방식을 적용하는 것이 어렵기 때문에 딥러닝을 적용하는 것에 어려움을 겪고 있었습니다. 그럼에도 Tabular data에 딥러닝을 적용하는 연구는 계속 되어 왔고, 오늘 소개 해주신 논문은 Tabular task에 대한 벤치마크 데이터셋을 제안하고 총 45개 데이터 셋에 대하여 폭 넓은 비교 실험을 진행 하였습니다. 이러한 실험들을 통해 Neural Network는 과하게 smoothing 되었다는 점, uninformative feature이 더 많은 영향을 끼친다는 점 등의 인사이트를 도출하였습니다.
세미나를 마치며 연구에 대한 조언까지 매우 갚진 세미나였던 것 같습니다. 감사합니다.
이번 세미나 역시 재미있는 주제가 다루어졌습니다. 한창 2010년대 딥러닝의 급속도의 발전이 한창 이루어지고 우리는 자연스럽게 이미지 데이터는 CNN, 텍스트/시계열 데이터는 RNN을 활용하는 점을 당연히 받아들이게 되었습니다. 하지만 기본 데이터 형태인 tabular 데이터는 딱히 정해진 딥러닝 아키텍쳐가 없습니다. 이러한 상황에서 오늘 소개해주신 논문은 여러개의 Tabular dataset을 준비하여 딥러닝 모델과 tree 기반의 머신러닝 모델들의 성능을 비교하는 대대적인 실험결과를 보여주고 있습니다. 크게 분류와 회귀문제로 나누어 성능을 비교하였을 때 두 실험 모두 앙상블 계열의 모델(Gradient Boosting, Random Forest 등)이 가장 좋은 성능을 보였습니다. 이에 저자들은 세 가지 원인 혹은 특징을 발견하였다고는 하지만 해당 내용은 좀 더 살펴봐야할 것 같습니다. 늘 생각할 거리의 주제를 준비해주신 발표자분께 감사의 말씀드립니다. 고생많으셨습니다.
이번 세미나에서는 왜 tabular data가 딥러닝 대비 tree 기반 모델에서 더 좋은 성능인가를 분석한 Why do tree-based models still outperform deep learning on typical tabular data 논문에 대한 세미나가 있었습니다. 본 연구에서는 tabular benchmark dataset을 구축하여 제공하고 데이터의 특성마다 tree-based 모델과 딥러닝 모델의 성능을 분석하였습니다. 특히 tabular의 uninformative한 데이터에 MLP 모델이 취약하다는 점과 feature를 독립적으로 다루지 못해 성능 제약이 있다는 findings가 흥미로웠습니다. 현업에가서 실제 데이터를 다룰 때, 저도 이러한 점들을 잘 고려하고 모델 선택에 반영해보아야겠다는 생각이 더욱 드는 것 같습니다. 늘 새로운 인사이트를 다루는 논문을 소개해주셔서 정말 생각할 점이 많은 세미나였던 것 같습니다. 그동안 좋은 발표 감사드리며 정말 고생 많으셨습니다!
이번 세미나에선 Why do tree-based models still outperform deep learning on typical tabular data 라는 연구가 소개되었습니다. 논문에선 딥러닝 모델과 tree-based 머신러닝 모델의 성능을 비교하기 위해 45개의 tabular data를 제안하고 있고, tree-based model의 성능이 더 좋은 이유를 분석하고 있습니다. 이미지나 텍스트 같은 비정형 데이터에 대해서는 딥러닝 모델을 사용하는 것이 일반화되었지만 여전히 tabular data에 대해선 tree-based model 의 성능이 더 높다는 점을 세미나를 통해서 알 수 있었고 그 차이가 생각보다 크다는 점이 놀라웠습니다. 원인에 대한 분석 중 분류 경계를 시각화한 그림이 기억에 남는데, MLP가 Random Forest에 비해 overly smooth solution을 생성하기 때문에 규칙적이지 못한 데이터에 적합하지 않다는 점을 새롭게 알 수 있었습니다. 발표자분의 마지막 세미나에서 여러 의견과 조언주신 부분 감사드립니다. 고생 많으셨습니다.
이번 세미나에서는 Why do tree-based models still outperform deep learning on typical tabular data?라는 논문에 대해 다뤄주셨습니다. 해당 연구에서는 Tabular Dataset 45개를 공개해 딥러닝 모델과 Tree 기반 모델의 성능을 비교하고 왜 Tree 기반 모델들이 Tabular Dataset에서 더 좋은 성능을 보이는지 분석했습니다. Numerical Feature들만을 이용해 Classification과 Regression을 수행한 경우, Numerical Feature와 Categorical Feature를 함께 사용한 경우, Dataset의 크기가 3만 개 이상인 경우와 5만 개 이상인 경우 XGBoost, RandomForest와 같은 Tree 기반의 모델들이 딥러닝 모델들보다 매우 높은 성능을 보인 점이 인상적이었습니다. 대표적인 Tree 기반 모델인 Random Forest와 MLP의 Decision Boundary를 비교한 슬라이드에서 직관적으로 MLP가 필요 이상으로 Smoothing 되어 성능이 저조함을 알 수 있었습니다. 딥러닝 모델 관련 논문들을 읽으면서 Generalization을 위해 Smoothing을 하는 방법 및 예시에 대해서는 접해보았지만, 오히려 과도하게 Smoothing이 되어 성능이 저하되는 예시를 보니 새로웠습니다. 연구에 대한 조언도 주시고 딥러닝에 대한 고찰을 할 수 있게 해주신 좋은 발표 감사합니다.
이번 세미나에서는 Why do tree-based models still outperform deep learning on typical tabular data 논문을 소개해 주셨습니다. 본 논문은 Tabular dataset을 어떤 모델 구조로 분석하는 것이 옳은 지에 대한 실험 논문으로 Vison이 CNN 계열, NLP가 RNN 계열의 모델 구조에 적절하다고 알려진 것과 같이, 과연 Tabular dataset은 어떤 구조가 적절한 지를 분석하였습니다. 본 논문에서는 45개의 benchmark tabular data을 제안하여 그 모두를 tree-based model과 deep learning model을 활용해 결과를 비교합니다. 크게 classification과 regression으로 나누어 실험을 수행하였으며, 두 task 모두에서 Tabular dataset은 tree-based 앙상블 계열 모델에서 높은 성능을 보임을 확인하였습니다. 논문에서는 이런 결과를 Deep learning-based model들은 inductive bias를 주입하는 방향으로 발전하였지만, Heterogeneous features, small sample size, extreme value의 특징을 가진 Tabular dataset에는 그 적용이 어렵다고 설명합니다. 본격적인 논문 소개에 앞서 각 dataset의 특징을 정리해 주신 것이 인상적이었으며, 세미나를 마무리하며 주신 조언들도 매우 인상 깊었습니다. 항상 배울 점이 많은 좋은 발표해 주셔서 감사합니다.
금일 세미나에서는 Why do tree-based models still outperform deep learning on typical tabular data? 논문을 다루어 주셨습니다. 본 논문에서는 tabular data를 이용하였을 때 deep learning model들에서보다 tree에 기반한 모델들에서 더 높은 성능을 보이고 있음을 말하고 있습니다. 또한 전처리에 있어 다수의 카테고리를 가진 데이터 삭제, 특정 샘플 수 이상의 데이터 추출 등 다양하게 진행하고 있음을 언급하고 있습니다. 이전에 tabular data는 많이 다뤄본 적이 없어 다소 생소하였는데, 이번 발표를 통해 어떻게 전처리가 진행되는지, 데이터의 특성이 어떠한지 많이 알아갈 수 있었던 것 같습니다. 방법론보다는 findings가 주인 논문인거 같은데, neural network는 uninformative한 feature들의 영향을 많이 받는다는 등을 발견한 점이 의미있는 것 같습니다. 방법론 자체보다 이런 인사이트를 찾는 부분의 중요성에 대해 다시 한번 생각해보게 되었습니다 . 마지막에 eda 등 기본의 중요성에 대한 말씀이나 딥러닝을 공부하시면서 든 생각들을 정리해주신 부분들이 크게 와닿았습니다. 남은 연구실 생활을 하면서 말씀해주신 부분들에 대해 좀더 고민해보도록 하겠습니다! 좋은 발표 감사합니다!
이번 세미나에서는 Why do tree-based models still outperform deep learning on typical tabular data?라는 논문을 다루었습니다. 딥러닝을 공부하면서 잊고 있었던 머신러닝 모델의 장점 및 특성에 대해 다시금 생각해보게 되는 흥미로운 주제의 세미나였습니다. 본 논문에서는 tabular data의 Heterogeneous features, small sample size, extreme value라는 특징을 언급하면서 nlp나 vision 분야의 기술을 그대로 적용하는 것의 어려움에 대해 강조하고 있습니다. 이를 위해 45가지의 벤치마크 데이터셋을 공개하고 이 데이터들을 활용하여 deep learning model 들과 tree-based model을 비교함으로써 tree-based model의 우수성을 입증합니다. 개인적으로 실험 결과의 findings중 첫 번째인 Neural networks are biased to overly smooth solutions에 대한 실험 내용과 결과가 매우 인상적이었습니다. 발표자분의 세미나를 들을 때마다 질문을 던져주셔서 생각을 많이 할 수 있어서 도움이 많이 되었던 것 같습니다. 마지막 세미나 또한 매우 의미있고 좋은 발표였던 것 같습니다. 그동안 고생 많으셨습니다!
이번 세미나는 Why do tree-based models still outperform deep learning on typical tabular data를 주제로 진행되었습니다. 본 논문에서는 tabular data가 딥러닝 모델들보다 tree 기반 모델에서 더 좋은 성능을 보이는지에 대해 연구하였습니다. 45개의 tabular benchmark dataset을 구축하였고 column 정보를 고려하거나, 고차원 데이터만 사용하는 등의 특징들을 정해두고 데이터들을 구축하여 실험하였습니다. 실제 데이터를 가지고 실험할 때 딥러닝보다 머신러닝 성능이 더 좋았던 경우들이 다수 있었는데도 불구하고 딥러닝 관련 모델을 발전시키는 논문들만 보다가 머신러닝의 분석에 대한 연구를 접할 수 있어 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나는 "Why do tree-based models still outperform deep learning on typical tabular data?"라는 논문에 대해 다루어주셨습니다. 제목부터 매우 흥미로웠는데 그 이유는 딥러닝을 공부하는 입장에서 종종 테이블 형태의 실제 데이터를 접할 때 딥러닝 모델보다 간단한 머신러닝 모델이 성능이 더 좋은 경우가 많기 때문입니다. 이 경우 머신러닝의 성능이 좋은 것이 내가 딥러닝을 잘 못 활용하고 있는 것이 아닐까 하는 찝찝합이 있었는데 이 논문이 훌륭한 참고 자료가 될 것 같습니다. 결국 머신러닝 계열의 모델이 잘 작동하는 이유는 테이블 형태의 데이터셋이 heterogeneous feature, smaal size 그리고 extreme value등의 특성을 가지고 있어 딥러닝 모델처럼 batch 학습을 통해 모델을 피팅할 경우 올바른 적합이 발생하기 힘들기 때문이 라고 이해하였습니다. 반대로 앙상블 트리 계열의 머신러닝 모델은 그러한 데이터셋의 불균형적인 특성에 잘 대처할 수 있습니다. 좋은 발표 감사드립니다.
이번 세미나는 “Why do tree-based models still outperform deep learning on typical tabular data”로 tabular data에 대해 왜 딥러닝 기반의 다양한 방법론보다 트리 기반의 방법론의 성능이 좋은지에 대한 이유를 분석한 논문이었습니다. Tabular 데이터는 이미지나 텍스트와 같은 비정형 데이터와 달리 변수 간 관계가 적고, 데이터의 수도 적으며, 이상치의 영향력이 상당히 큽니다. 이러한 특징들은 XGBoost나 RandomForest와 같은 이전부터 널리 사용되는 트리 기반의 성능이 여전히 딥러닝 기반의 모델에 비해 높은 것을 알 수 있습니다. 해당 논문에서는 이러한 원인이 단순히 파라미터의 수가 너무 많아 과적합이 된다거나, 명목형 변수를 딥러닝 기반 모델이 효과적으로 다루지 못하는 등의 단순한 문제점이 아님을 다양한 실험 환경과 모델 비교를 통해 보이고 있습니다. 해당 논문에서는 정보량이 거의 없는 변수가 딥러닝 모델에 영향을 끼치고, 결정결계면이 smoothing되어 있으며, ResNet 등의 모델 구조 자체가 Tabular Data에 적합하지 않은 inductive bias를 가지고 있기 때문이라고 주장하고 있습니다. 딥러닝 모델이 항상 최고의 성능을 낼 수 있는 접근법은 아니라고 생각합니다. 특히 이미지나 텍스트 데이터와 다른 특징을 가지고 있는 Tabular 데이터에 대해 적합한 Inductive Bias는 트리 모델에 있다고 생각할 수 있습니다. 발표자님께서 이러한 특징들을 잘 정리해주시고, 논문 역시 다양한 실험을 통해 주장을 뒷받침하고 있어, 그 원인에 대해 다시한번 생각해보는 좋은 계기가 되었던 것 같습니다. 좋은 발표 감사드립니다. 그동안 매번 세미나를 통해 좋은 인사이트를 주셔서 매우 감사했습니다.
금일 세미나는 "Why do tree-based models still outperform deep learning on typical tabular data"라는 주제로 진행되었습니다. 본 논문에서는 크게 8개의 특징을 가지는 45개의 benchmark tabular data을 제안하였고, 해당 데이터셋에서 tree-based model이 deep learning-based model에 비해 높은 성능을 도출하는 것을 실험적으로 보이고 이 이유를 분석하였습니다. 논문에서는 tree-based model이 deep learning-based model의 성능을 능가하는 세가지 이유가 제시되었고, 개인적으로는 이 중 tabular data가 image에 비해 uninformative feature가 많다는 해석이 인상적이었습니다. 개인적으로 시계열 데이터 분석을 진행하면서 데이터의 볼륨 대비 유의미한 정보가 적다는 것을 간접적으로 많이 느꼈는데, 해당 부분을 실험 결과를 통해 해석한 점이 좋았고 그 과정도 꽤 논리적이라는 생각이 들었습니다. 그동안 기술적인 내용들과 더불어 딥러닝 연구들의 근본적인 내용을 다루는 세미나를 많이 진행해주셔서 딥러닝에 대해 고민해보는 시간을 가지게 해주셔서 감사했습니다. 마지막 발표까지 수고 많으셨습니다.
본 세미나에서는 Why do tree-based models still outperform deep learning on typical tabular data라는 주제의 논문에 대한 리뷰를 진행하였습니다. 논문의 제목부터 굉장히 흥미로운 주제의 논문이었습니다. 딥러닝이 항상 월등한거처럼 많은 논문에서 서술하고 있지만 꼭 그렇지는 않다는 것을 본 논문을 통해서 알 수 있었습니다. 또한 굉장히 인상적이었던 부분은 45개의 benchmark tabular data를 제안했다는 점 입니다. 45개라는 숫자가 굉장히 대단하게 느껴졌으며 어쩌면 단순할 수 있는 질문에 대해 답변하기 위해 굉장히 다양한 실험을 했다는 점이 인상적이었습니다. 추가로 단순히 Tree-based model이 좋은 성능을 보여준다로만 결론을 내린것이 아니라 다양한 측면에서 해석한 부분이 인상적이었습니다. 개괄적인 내용의 세미나 주제를 선택하여 모두에게 도움이 되는 세미나를 해주시려는 발표자님의 노고가 보였던 발표였습니다. 흥미로운 주제의 발표 감사합니다.
이번 세미나는 tree-based model들과 deep learning-based model과의 비교를 통해 tabular 데이터셋에선 여전히 tree-based model의 성능이 건재함을 입증하는 Why do tree-based models still outperform deep learning on typical tabular data 논문으로 진행되었습니다. Tabular data는 Image data나 Language data에 비해 heterogeneous하고, 데이터 크기도 적으며, 데이터 간 통일성도 낮은 특징을 가지므로, 기존에 input 데이터의 invariance와 spatial dependency를 고려할 수 있도록 inductive bias를 주입하는 방향으로 학습되는 딥러닝 모델들이 다른 도메인 데이터셋에 비해 좋은 성과를 내지 못한다고 합니다. 해당 논문은 45개의 tabular 데이터에 대해 deep learning 모델과 tree-based 모델을 비교하고, 최종적으로 왜 tree-based 모델들이 더 우수한 성능을 보였는지를 분석하는 과정에서 발견한 3가지 특성을 제시했습니다. 지금까지 새로운 방법론을 제시한 논문만 접해보다가 특정 결과를 집중적으로 분석하는 논문은 해당 세미나를 통해 처음 접해서 굉장히 신선한 느낌이 드는 발표였습니다. 좋은 발표 감사합니다.
이번 세미나는 비정형 데이터에서 강세를 보이는 딥러닝 기반 모델이 tabular 데이터에서는 tree 기반 모델들에 뒤쳐지는 이유에 대해 분석한 논문 Why do tree-based models still outperform deep learning on typical tabular data을 주제로 진행되었습니다. 딥러닝 기반의 모델들은 입력 데이터의 invariance와 spatial dependency를 고려할 수 있도록 inductive bias를 주입하는 방향으로 발전해왔습니다. 그 예시로 비전 분야에서 locality를 반영하기 위한 CNN이나 ViT, Swin Transformer와 같은 구조가 있습니다. 반면, tabular 데이터는 정형 데이터라는 특성 상 feature 간 차이가 크고, 데이터 양이 적으며, 특히 극단적인 값을 가지는 경우 딥러닝 기반의 방식을 적용하기 어렵습니다. 최근 이러한 정형 tabular 데이터를 위한 딥러닝 연구가 활발히 진행됨에 따라 본 논문에서는 45개의 데이터셋으로 구성된 새로운 벤치마크 데이터셋을 공개하였으며, 딥러닝과 트리 기반 모델들에 대해 선행연구보다 폭넓은 비교 실험을 수행하였습니다. 이를 통해, 트리 기반 모델의 우수성에 대해, 뉴럴넷은 지나치게 스무딩된 솔루션을 반환하고 tabular 데이터가 이미지에 비해 uninformative feature를 많이 가지고 있으며 non invariant한 특성이 있다는 3가지 근거를 제시하고 있습니다. 이번 세미나를 들으면서 우수한 단 하나의 방법론이 존재하기보다 각 데이터와 task의 특성에 맞게 적합한 방법론의 pool을 조정하는 것 역시 중요한 일이라는 것을 다시금 깨달을 수 있었습니다. 항상 유익한 세미나 진행해주셔서 감사합니다.
이번 세미나는 tabular 데이터에 대한 모델들의 비교분석을 다룬 Why do tree-based models still outperform deep learning on typical tabular data을 주제로 진행되었습니다. 해당 논문에서는 연구실에서도 자주 사용하는 머신러닝기반의 방법론들과 딥러닝방법론의 비교, 그리고 간단하게 적용가능하면서도 기존 방법론들의 성능이 왜 더 좋은지 알 수 있었습니다. 실험적인 결과이지만, 이제까지 데이터가 부족해서 안좋다 라는 구체적이지 못한 생각으로 이유를 생각했는데, 실험적인 결과를 통해 좀 더 정확한 정보를 얻을 수 있지 않았나 싶습니다. tabular 데이터는 feature 간 내포하는 의미가 매우 다르고, 데이터양이 적기 때문에 딥러닝 방식을 적용하는 것 자체가 문제가 될 수 있고, 당연하게도 이러한 상황에서는 tree 기반알고리즘이 적합하다는 것을 알 수 있습니다. 이를 증명하고자 45개의 데이터셋으로 구성된 벤치마크 데이터셋을 사용했고, 결과적으로 tabular 데이터에 더 적합한 모델링, 즉 feature 간의 상관관계를 좀 더 고려되는 모델링 방법론이 필요하지않나 생각하게 됩니다.
이번 세미나는 "Why do tree-based models still outperform deep learning on typical tabular data" 논문에 대하여 소개해주셨습니다. 본 논문에서는 왜 tree-based model이 tabular dataset에 대하여 deep learning-based model보다 잘 작동하는지에 대한 연구를 수행하였습니다. 이를 위해 45개의 tabular dataset를 구성하였고 해당 데이터를 통해 두 유형의 모델을 비교하였습니다. 일반적으로 경험을 통해 tree-based model이 더 성능이 잘 나온다는 것은 알고 있었지만 이를 실험적으로 보이고 결론을 통해 잘 안되는 이유를 설명하는 것이 인상깊었습니다. 마지막 세미나가 되실 거라 생각되는데 마지막까지 단순히 결과만 듣고 끝나는 것이 아닌 고민해볼 수 있는 논문에 대하여 소개해주셔서 좋았습니다. 좋은 발표 감사드리며 마지막까지 좋은 결과 많이 생기시길 바라겠습니다. 감사합니다.
이번 세미나는 Why do tree-based models still outperform deep learning on typical tabular data? 논문을 바탕으로 진행되었습니다. 처음부터 끝까지 생각할 거리가 정말 많았던 세미나였던 것 같습니다. 직관적으로 보통 Image 데이터가 들어오면 CNN을 생각하고, Language 데이터가 들어오면 RNN을 생각하게 됩니다. 그러나 어떻게 본다면 데이터의 가장 기본적인 형태인 Tabular data가 있을 경우 어떤 모델을 사용해야 할지 잘 생각해보지 않았던 것 같습니다. Tabular data는 정보의 통일성이 낮아 Heterogeneous한 features들이 많고 small sample size, Extreme value 들로 구성되기에 위의 방식들을 적용하기는 어렵습니다. 현 논문에서는 기존에 다른 분야들처럼 벤치마크 Data set이 명확하지 않던 Tabular data에 대해서 Tabular data set을 제안하고 있으며, 이러한 Tabular data set에 대하여 딥러닝과 tree-based 머신러닝 기법들을 비교하고 있습니다. 결과는 놀랍게도 대부분의 데이터에서 Tree based model이 성능이 좋게 나오고 있었습니다. 이러한 이유는 Tabular 데이터에는 uninformative feature가 많다는 이유도 있고, 딥러닝 모델들이 규칙적이지 못한 데이터에 데이터 대응하지 못하는 경우도 있기 때문입니다. 이번 세미나를 통하여 너무 당연한 것이지만 그동안 딥러닝 모델만을 쫓으면서 잊었던 적절한 Task에 적절한 모델을 잘 사용할 수 있어야 한다는 점을 다시 한번 상기할 수 있었습니다. 마무리에 해 주신 조언들 역시 뇌리에 남아 생각할 점이 많았던, 정말 좋은 세미나였습니다. 좋은 발표 정말 감사드립니다.
Why do tree-based models still outperform deep learning on typical tabular data?를 주제로 세미나가 진행되었습니다. 최근 tabular data에대한 연구를 자주 확인할 수 있었는데, nlp에서 언급되는 table data와 차이점을 확인하며 들을 수 있었습니다. 딥러닝 연구를 팔로우 하다보면 tree based model에 대한 중요성을 놓치게 되는 경우가 있는데, 해당 모델의 중요성을 언급하고 중요한 포인트를 짚어낸 좋은 논문이라 생각됩니다. 개인적으로 저자들이 Data are non invariant by rotation, so should be learning procedures를 해석한 파트가 인상깊었습니다. Neurips에서 dataset workshop이 열리기 시작하면서 문제를해결하는 방법론 이외에도 benchmark dataset의 중요성과 의의를 다시한번 생각하게 됩니다. 좋은 발표 감사합니다.