[Paper Review] Accurate predictions on small data with a tabular foundation model
작성자
Jaehyuk Heo
작성일
2025-04-02 22:47
조회
523
Topic
Accurate predictions on small data with a tabular foundation model
Overview
Tabular Prior-data Fitted Network (TabPFN)은 2022년에 소개된 방법으로 Bayes’ theorm으로 접근하여 posterior predictive distribution을 직접 학습하는 모델
University of Freiburg 소속의 연구자를 중심으로 현재까지도 계속 후속 연구를 하고 있는 방법론
TabPFN의 장점
Bayesian Neural Network & Structural Causal Model 기반 synthetic data (prior) 생성
PFN으로 posterior predictive prediction 학습
In-context learning 방식으로 test sample에 대한 posterior distribution 예측
발표자료 및 발표영상
발표자료: 첨부 파일
발표영상: 추후 첨부
참고문헌
Accurate predictions on small data with a tabular foundation model (Nature 2025)
TabPFN- A transformer that solves small tabular classification problems in a second (NeurIPS 2022)
Transformers can do Bayesian inference (ICLR 2022)
전체 17
Sunghun Lim
2025-04-24 23:57
이번 세미나에서는 “Accurate Predictions on Small Data with a Tabular Foundation Model” 논문을 주제로 발표가 진행되었습니다. TabPFN은 소규모 탭형(tabular) 데이터에서의 예측 정확도를 극대화하려는 매우 혁신적인 시도로, 기존의 데이터 중심 학습 패러다임과는 뚜렷이 구분되는 점이 인상 깊었습니다. 특히 사전 지식(prior)을 기반으로 한 베이지안 추론 과정을 학습하여 테스트 시점에서의 posterior prediction을 수행하는 구조는, 마치 사전 훈련된 언어모델의 철학을 정형데이터에 적용한 듯한 인상을 주었습니다. Synthetic prior 데이터를 Bayes 규칙 하에 PFN으로 학습하고, 실제 테스트 샘플을 통해 사후분포를 추정하는 방식은 이론적 정합성과 실용성을 동시에 갖춘 설계였습니다. 특히 인컨텍스트 러닝 형태로 작동하면서도 zero-shot에 가까운 generalization을 보인다는 점에서, 소량 데이터 환경에 적합한 foundation model의 가능성을 잘 보여준 사례라고 생각합니다. 소규모 데이터의 한계를 뛰어넘기 위한 새로운 접근으로써 깊은 인상을 남긴 발표였습니다. 좋은 발표 진행해주셔서 감사합니다.
Siyul Sung
2025-05-04 18:03
이번 세미나에서는 "Accurate predictions on small data with a tabular foundation model" 라는 논문에 대한 소개를 중심으로 진행되었습니다. 이번 발표는 Tabular Prior-data Fitted Network(TabPFN)이라는 모델을 소개하며, 작은 데이터셋에서도 높은 정확도를 낼 수 있는 새로운 접근법을 다루었습니다. Transformer를 기반으로 베이지안 추론을 직접 학습하여 사후 예측 분포를 추정한다는 점이 가장 인상적이었습니다. 특히 prior 데이터를 생성할 때 Bayesian Neural Network와 Structural Causal Model을 사용해 synthetic 데이터를 만들어냈다는 점이 흥미로웠습니다. 이로 인해 실제 데이터가 적더라도 다양한 잠재적 데이터 분포를 학습할 수 있어, 실험적으로도 상당히 높은 일반화 성능을 보여주었습니다. 아쉬웠던 점은 TabPFN의 한계로 지적된 input feature 수에 대한 제약이었습니다. 발표에서 언급된 것처럼, 현재 버전의 TabPFN은 feature 수가 늘어날수록 성능과 학습 속도에서 한계가 발생하는데, 이는 실제 복잡한 tabular 데이터셋을 다루는 데 있어 실용성을 저해할 수 있다고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.
Junyeong Son
2025-04-04 13:25
이번 세미나는 Bayesian Inference에서 Posterior predictive distribution, 즉 PPD의 계산이 복잡하다는 문제점을, 이를 직접적으로 예측 가능한 Network을 구성해서 해결한 Prior-Data Fitted Networks(PFN)을 Foundation Tabular Model로 확장한 TabPFNv2를 제안한 “Accurate predictions on small data with a tabular foundation model”라는 논문에 대한 발표를 중심으로 진행되었습니다. TabPFN 및 TabPFNv2는 기존 Bayesian Neural Network에 기반해 적은 학습 및 평가 시간을 가지고 Downstream Task에 대한 학습 없이 좋은 성능을 보였지만, 현실 상황에서 발생할 수 있는 결측치, Categorical Feature 등의 Tabular Dataset에 대한 가정 없이 Prior Dataset을 구성하며 학습 데이터 개수가 매우 적었던 PFN의 한계점을 극복하고 SCM과 이에 더해 Tree 혹은 Discretization을 활용한 모델 구조와 학습 데이터의 개수를 증폭시켜 Tabular Data에서의 Foundation Model로 활용될 수 있게 되었습니다. 어떠한 분야던 Foundation Model을 구축한다는 것이 고려할 사항도 굉장히 많아 어려운 연구임에도 불구하고 연구실 단위에서도 충분히 활용할 수 있을 만한 모델 크기와 또 잘 구성된 코드를 구축해놨다는 점이 향후 많은 사람들이 해당 모델을 사용하고, 또 확장된 모델이 등장할 가능성이 높은 좋은 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
Minjeong Ma
2025-04-04 15:16
이번 세미나에서는 작은 데이터셋에 대한 정확한 예측을 가능하게 하는 TabPFN을 제안한 ‘Accurate predictions on small data with a tabular foundation model’ 논문에 대해 발표해 주셨습니다. 해당 논문은 베이지안 추론을 Transformer에 통합해 사후 예측 분포를 직접 학습하는 방식이었습니다. 이 모델은 단순히 예측 정확도를 높이는 데 그치지 않고, 학습된 분포를 바탕으로 예측의 불확실성까지 함께 제공함으로써 모델의 신뢰도를 향상시킵니다. 특히 synthetic prior를 생성하는 방식에서 gaussian process와 bayesian neural network를 이용해 다양한 구조와 분포를 학습에 반영했다는 점이 흥미로웠고, 이를 통해 사전정보가 풍부하지 않은 상황에서도 높은 일반화 성능을 보장할 수 있다는 점에서 실용적인 의미가 크다고 느꼈습니다. Transformer 기반의 PFN이 포지션 인코딩 없이도 permutation invariance를 유지하며 작동하고, attention mask로 평가 샘플을 효과적으로 분리한 점도 인상깊었습니다. 또한 TabPFN v2에서는 2D attention을 도입해 feature-level 관계까지 반영함으로써 보다 강력한 표현력을 확보한 점이 인상 깊었고, 기존 SOTA 모델들보다 fine-tuning 없이도 우수한 성능을 보였다는 실험 결과는 foundation model로서의 가능성을 강하게 뒷받침했다고 생각합니다. 소규모 학습 데이터셋으로도 효과적인 추론이 가능하다는 점은 특히 의료나 금융 등 데이터 수집이 어려운 도메인에서 매우 유용하게 활용될 수 있을 것으로 기대됩니다. 좋은 발표해 주셔서 감사합니다.
SangMin Lee
2025-04-04 20:51
이번 세미나에서는 작은 규모의 데이터에서도 높은 예측 성능을 발휘할 수 있는 Tabular Foundation Model인 TabPFNv2를 제안한 “Accurate predictions on small data with a tabular foundation model” 논문을 중심으로 발표가 진행되었습니다. 기존 PFN이 베이지안 추론의 사후 예측 분포(Posterior Predictive Distribution)를 직접 모델링함으로써 적은 학습으로도 강력한 성능을 보였던 반면, TabPFNv2는 결측치 처리, 범주형 변수 대응, feature 간 상호작용 학습 등 실제 Tabular 환경에서 요구되는 다양한 요건을 반영해 성능과 실용성을 크게 확장한 것이 인상 깊었습니다. 특히 SCM 기반의 prior data 구성 방식, discretization 전략, 그리고 2D attention을 통한 feature-level 표현 강화는 transformer 기반 구조가 tabular 데이터에서도 효과적으로 작동할 수 있음을 잘 보여주었습니다. Fine-tuning 없이도 다양한 다운스트림 태스크에서 높은 성능을 보였다는 점은 foundation model로서의 가능성을 입증하는 대목이었고, 연구실 단위에서도 활용 가능한 모델 크기와 코드 접근성 역시 실질적인 연구 활용 측면에서 긍정적으로 다가왔습니다. 적은 데이터로도 신뢰도 있는 추론이 가능한 모델을 찾고 있던 사람들에게 유용한 통찰을 줄 수 있는 유익한 발표였습니다.
Hankyeol Kim
2025-04-06 02:10
기존의 Tabular data 학습 모델들이 데이터셋마다 별도로 모델을 학습해야 했던 것에 반해, TabPFN은 find-tuning 없이도 우수한 성능을 보인 것이 놀라웠으며, tabular data에서도 foundation model이 가능함을 알게 되어 인상적이었습니다. Bayesian 추론을 직접 수행하기엔 계산량이 너무 큰 상황에서, synthetic prior를 통해 approximate PPD를 미리 학습시켜두는 방식은 실용성을 넘어 학술적 의미도 매우 크다고 생각하여 역시 Nature에 게재될 만한 논문이라고 느꼈습니다. Gaussian process와 비교했을 때 거의 동일한 PPD를 도출해낸 결과에 대해서는, 이론적 기반을 실험적으로 어느 정도 검증해낸 것이기에 매우 탄탄한 연구라고 생각했습니다. 좋은 발표 해주신 덕분에 새로운 분야의 연구와 지식을 접할 수 있었습니다, 감사합니다.
Woongchan Nam
2025-04-07 16:13
이번 세미나에서는 TabPFNv2 논문을 중심으로, 기존 PFN의 한계를 극복하고 실제 Tabular Dataset의 다양한 제약 조건들을 효과적으로 반영한 새로운 접근법을 소개해 주셨습니다. Bayesian Inference의 복잡한 Posterior Predictive Distribution 계산 문제를 해결하기 위해, Prior-Data Fitted Networks의 개념을 기반으로 Synthetic Prior 데이터를 활용하는 방식을 소개하며 특히, 결측치 처리나 범주형 변수와 같이 현실 데이터에서 자주 마주치는 이슈들을 고려하여, SCM 및 Tree 혹은 Discretization 전략을 도입한 점이 인상 깊었습니다. 또한, TabPFNv2는 기존 모델이 작은 데이터셋에 국한되던 성능의 한계를 넘어, 학습 데이터의 증폭과 2D Attention을 통한 feature-level 관계 학습을 도입함으로써, Fine-tuning 없이도 다양한 다운스트림 태스크에서 뛰어난 예측 성능을 보여준다는 점이 매력적이었던 것 같습니다. Foundation Model 구축이라는 도전적인 목표를 달성하기 위한 실질적이고 혁신적인 해결책으로, 연구실 단위에서도 충분히 활용 가능할 정도로 코드와 모델 크기가 최적화되어 있다는 점이 향후 다양한 산학 프로젝트에서 활용도가 높을 것 같아 정말 유익했던 것 같습니다. 좋은 발표 감사합니다!
Subeen Cha
2025-04-07 21:08
이번 세미나에서는 TabPFN(Tabular Prior-data Fitted Network)이라는 새로운 접근 방식의 머신러닝 모델을 접할 수 있었습니다. 특히 "작은 데이터에서도 높은 예측 성능을 보인다"는 점이 굉장히 인상 깊었습니다. 요즘처럼 대규모 데이터와 연산 자원이 당연시되는 시대에 이렇게 "적은 데이터"에 초점을 맞춘 모델이 실질적인 성과를 보여준다는 점에서 신선하게 다가왔습니다.
기존에는 적은 데이터 상황에서 일반적으로 overfitting을 피하기 위해 단순한 모델을 쓰거나 사전 지식을 녹인 feature engineering에 많이 의존했는데, TabPFN은 문제 해결을 위해 Bayesian inference를 transformer에 접목시키는 방식으로 풀어냈다는 점이 새로웠습니다. 특히 사전 지식을 synthetic prior data로 모델이 스스로 만들어낸다는 점은 흥미로웠으며 인간이 직접 데이터를 손보지 않고도 충분히 좋은 성능을 낼 수 있다는 가능성을 보여준 것 같았습니다.
또 하나 인상적이었던 건 TabPFN이 학습이 끝난 이후에는 새로운 데이터에 대해 굉장히 빠르게 예측할 수 있다는 점입니다. 사전에 학습된 PFN을 활용해서 test sample에 대해 곧바로 posterior distribution을 출력하는 방식은 마치 transformer가 prompt를 읽고 곧장 답을 내는 in-context learning과 비슷하며 대규모 언어 모델에서 배운 개념이 tabular domain에서도 어떻게 확장될 수 있는지를 보여준 좋은 예라고 느꼈습니다.
무엇보다도 이 모델이 단순히 하나의 논문으로 끝나는 게 아니라 현재까지도 Freiburg 대학 연구자들을 중심으로 활발히 연구가 이어지고 있다는 점에서 앞으로 tabular 모델링 분야에 새로운 패러다임을 제시할 수 있을 것으로 기대됩니다. 좋은 발표 준비해 주셔서 감사합니다.
Doyoon Kim
2025-04-08 16:58
이번 세미나는 태뷸라 데이터 대상의 foundation 모델(Prior-data Fitted Network, PFN)을 제안하는 연구가 소개되었습니다. 제안하는 방법론은 Bayesian 인공신경망을 여러가지 하이퍼파라미터의 분포로 부터 각 하이퍼파라미터를 선택한 후 구조를 형성하고, 해당 모델로 데이터를 생성합니다. 계속해서 새로운 베이지안 네트워크 모델로 데이터를 생성하고 PFN이 이를 통해 학습을 함으로써 Posterior predictive distribution (PPD)를 학습할 수 있게 됩니다. 그러므로 일반적인 예측 모델과는 다르게 deterministic 한 값보다 분포를 추론할 수 있게 됩니다. 그러므로 하위 과업을 위한 finetuning 시에도 이러한 PPD를 쉽게 추론 할 수 있게 되는 것입니다. AutoML 벤치마크 데이터셋 실험 결과 다른 머신러닝 모델보다 더 좋은 성능을 낸 것을 확인할 수 있었습니다. 흥미로운 발표 감사합니다.
Jaewon Cheon
2025-04-12 10:09
이번 세미나에서는 TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second와 관련된 방법론을 제시한 발표를 중심으로 진행되었습니다. TabPFN은 Bayesian Inference 기반의 추론을 Transformer 구조를 통해 근사하는 Prior-Data Fitted Network(PFN)으로, 소규모 데이터셋에 대한 빠르고 정확한 예측을 가능하게 합니다. 본 발표에서는 PFN의 이론적 배경이 되는 Posterior Predictive Distribution(PPD), Synthetic Prior 생성 방식, Transformer의 Masking 전략과 같은 학습 설계에 대해 상세히 설명하고, 이를 기반으로 하는 TabPFN v2의 구조와 성능 확장에 대해 다루었습니다. TabPFN v2는 기존보다 훨씬 더 큰 규모의 Prior Dataset을 학습하고, Sample Attention뿐 아니라 Feature Attention까지 적용한 2D Transformer 구조를 채택하여 성능을 향상시켰습니다. 또한 Structural Causal Model(SCM)을 기반으로 다양한 인과 구조와 데이터 특성을 반영하는 Prior 생성 전략을 도입해, 다양한 tabular task에 대한 범용성과 fine-tuning 가능성을 입증하였습니다. 실험 결과, TabPFN은 기존 ML/DL 모델들보다 빠른 수렴 속도와 더 나은 Calibration 성능을 보였으며, fine-tuning 없이도 강력한 성능을 발휘하는 Tabular Foundation Model로서의 가능성을 보여주었습니다. 발표를 통해 소규모 데이터 문제 해결을 위한 이론적 접근과 실용적 모델 설계 간의 접점을 확인할 수 있었습니다.
Jaehee Kim
2025-04-13 17:14
이번 세미나는 tabular data에 대한 사전학습 및 추론 방식을 제안한 " TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second"을 중심으로 진행되었습니다. 이미지, 시계열, 자연어 등의 다양한 도메인에서 사전학습은 모델의 성능을 높히고 활용성을 증대시키는 효과적인 전략으로 알려져 있지만, tabular는 변수의 갯수, 변수의 분포 및 종류 등이 데이터마다 매우 다른 특성을 가지고 있어 그 동안 매우 어려운 것으로 인식되어 왔습니다. 이에 대해 해당 논문에서는 Prior 분포를 적극적으로 활용하여 가상의 분포들로 부터 변수 간 관계, 변수의 분포 등을 설정하고 학습 데이터를 만드는 방식으로 사전학습을 진행하게 됩니다. 성능 측면에서 주의깊게 살펴본 지점은 데이터의 크기에 따른 성능 변화입니다. 사전학습을 위해 모델 크기가 커지면서 속도가 느려지는 상황이 발생하게 됩니다. 하지만 TabPFN 모델은 학습 없이 ICL만으로도 준수한 성능을 보이고 있고, 데이터가 매우 적은 상황에서도 Tree 및 Gradient Boosting 기반 방법론들과 비슷하거나 더 좋은 모습을 보여주면서 tabular data에 대한 사전학습의 가능성을 확장시키고 있습니다. 매우 복잡한 수식을 기반으로 논문이 전개되는 만큼 쉽게 이해할 수는 없었지만, tabular의 특성 상 제한된 분포 후보들을 가지고 있다는 점에서 인상적이었습니다. 좋은 발표 감사드립니다.
Woojun Lee
2025-04-14 19:59
이번 세미나에서는 Tabular Foundation Model인 TabPFNv2를 제안한 “Accurate predictions on small data with a tabular foundation model” 논문을 소개해주셨습니다. TabPFNv2는 기존 Bayesian Inference에서의 Posterior Predictive Distribution(PPD) 계산 과정이 복잡하고 비용이 많이 드는 점을 해결하기 위해 Transformer 기반의 Prior-Data Fitted Network(PFN)을 확장한 모델로, 소규모 Tabular 데이터에서 빠르고 정확한 예측 성능을 제공합니다. 특히, Structural Causal Model(SCM)을 도입하고, Tree 및 Discretization 기법을 활용하여 더 풍부하고 다양한 특성을 반영한 Prior Dataset을 구성함으로써, 기존 PFN의 한계를 극복한 점이 인상적이었습니다. 또한 Sample Attention뿐만 아니라 Feature Attention을 활용한 2D Transformer 구조를 통해 모델의 성능과 범용성을 크게 확장하였으며, fine-tuning 없이도 다양한 downstream task에서 기존의 ML/DL 모델들보다 더 뛰어난 Calibration 성능과 예측력을 보여 Tabular Foundation Model로서의 가능성을 명확히 제시한 점에서 매우 유익한 연구라는 생각이 들었습니다. 좋은 발표 감사합니다.
Jinwoo Park
2025-04-14 21:53
금일 세미나에서는 "Accurate predictions on small data with a tabular foundation model" 논문을 소개해주셨습니다. 해당 연구에서는 Tabular data에 대한 foundation 모델을 제안하며, Nature라는 저명한 저널에 논문을 게재시켰습니다. 기존 PFN이 Bayesian 추론의 Posterior Predictive Distribution을 Transformer 구조를 통해 직접 근사함으로써 소규모 데이터에서도 빠르고 정확한 예측을 가능하게 했다는 점을 중점적으로 다루고 있으며, 추가적으로 SCM 기반 prior 생성, 결측치 및 범주형 변수 대응, 2D attention 등을 통해 보다 실제적인 데이터 환경에 적합하도록 모델이 확장된 점이 인상 깊었습니다. 특히 fine-tuning 없이도 다양한 downstream task에서 기존 SOTA 모델들과 경쟁하거나 이를 상회하는 성능을 보였다는 실험 결과는, Tabular Foundation Model로서의 실용성과 가능성을 충분히 보여주었습니다. 또한, 연구실 단위에서 접근 가능한 모델 크기와 코드 공개 또한 활용도 측면에서 매우 긍정적이었고, 실제 연구나 응용에서도 활용 가능성이 높아 보였습니다. 아무래도 tabular 데이터가 딥러닝 모델에서 보통 성능이 좋지 않다고 알려졌었지만, 그 와중에 이러한 연구가 나온 것이 매우 흥미로웠고, 새로운 발전 가능성을 보여준 것 같았습니다. 익숙하지 않은 분야라 준비 과정이 쉽지 않으셨을 텐데 좋은 발표 정말 감사드립니다.
Hun Im
2025-04-14 22:47
이번 세미나에서는 Nature 2025에 발표된 "Accurate predictions on small data with a tabular foundation model" 논문을 중심으로, TabPFN과 TabPFN v2에 대해 소개해주셨습니다. 이 연구는 소규모 테이블형 데이터에서 높은 예측 성능을 달성하기 위해 베이지안 추론 개념을 Transformer 기반 네트워크에 적용한 Prior-Data Fitted Networks(PFN)를 제안합니다. 발표는 베이지안 추론의 개념과 Posterior Predictive Distribution의 계산 과정을 설명하며 시작되었고, Transformer 구조를 활용한 PFN이 어떻게 prior 정보를 활용하여 복잡한 계산을 효율적으로 처리하는지를 소개해주셨습니다. 특히, prior dataset을 생성하는 다양한 방식과 그 효과적인 활용이 인상적이었습니다. 이후 TabPFN과 v2의 구조적 확장과 실험 결과를 통해, fine-tuning 없이도 강한 일반화 성능을 보이는 점, 다양한 데이터 속성에서 안정적인 예측이 가능하다는 점이 강조되었습니다. 특히 v2에서는 feature attention이 추가되고, 더 복잡한 prior 생성 방식이 도입되며 모델의 활용 가능성이 크게 확장된 모습이었습니다. 소규모 데이터 문제를 근본적으로 해결하려는 접근과, tabular foundation model의 발전 방향에 대해 통찰을 제공해준 발표였습니다. 좋은 발표 감사합니다!
Kiyoon Jeong
2025-04-16 00:12
이번 세미나에서는 소규모 tabular 데이터에서도 높은 성능을 보이는 TabPFNv2 논문을 중심으로 발표가 진행되었습니다. TabPFNv2는 Bayesian Inference의 PPD 계산을 Transformer 기반으로 근사하는 PFN을 확장한 모델입니다. 기존 PFN의 한계를 극복하기 위해 SCM 기반 prior 생성, 결측치·범주형 변수 대응, feature 간 상호작용 학습 등이 추가되었습니다. 특히 2D attention 구조를 통해 sample 간 관계뿐만 아니라 feature 간 관계까지 효과적으로 학습합니다. 사전학습만으로도 다양한 downstream task에서 fine-tuning 없이 우수한 성능을 보이며, 실험적으로 기존 SOTA 모델들과 경쟁 가능한 결과를 보여주었습니다. 모델 크기와 코드 접근성이 좋아 실무 적용 가능성도 높습니다. Tabular 도메인에서 foundation model의 가능성을 확인할 수 있었던 유익한 발표였습니다. 좋은 발표 감사합니다.
Hyeongwon Kang
2025-04-13 22:47
이번 세미나에서는 소규모 데이터에서도 뛰어난 예측 성능을 보이는 Tabular Foundation Model인 TabPFNv2 논문을 중심으로 발표가 진행되었습니다. 기존 PFN이 Bayesian 추론의 Posterior Predictive Distribution을 Transformer로 근사하는 방식으로 적은 데이터에서도 강력한 성능을 보였던 반면, TabPFNv2는 결측치 처리, 범주형 변수, feature 상호작용 등 실제 tabular 환경에서의 요구사항을 보다 정교하게 반영했다는 점이 인상적이었습니다. 특히 SCM 기반의 synthetic prior 생성, feature discretization, 그리고 2D Attention 구조를 통해 feature-level 표현력을 높이고, 다양한 구조의 데이터를 잘 일반화할 수 있도록 설계된 점이 돋보였습니다. Fine-tuning 없이도 다양한 downstream task에서 강력한 성능을 보였다는 점은 Tabular Foundation Model로서의 가능성을 잘 보여주었고, 코드 접근성과 적정 모델 크기 역시 실용적 활용 측면에서 긍정적으로 다가왔습니다. 기존 LLM 기반 모델이나 Tree 기반 모델이 충분히 다루지 못했던 소규모 tabular 문제에 실질적 대안을 제시했다는 점에서, 향후 연구나 현업 응용에도 매우 유용한 프레임워크라 생각되었습니다. 좋은 발표 감사합니다!
Sieon Park
2025-04-16 22:10
이번 세미나에서는 “Accurate Predictions on Small Data with a Tabular Foundation Model” 논문을 중심으로, 소규모 데이터에서도 높은 예측 정확도를 달성할 수 있는 TabPFN 모델에 대해 심도 있는 발표를 해주셨습니다. 발표에서는 Bayesian 추론의 수식 전개 과정과 posterior predictive distribution의 개념까지 함께 설명해주셔서 이론적 기반을 이해하는 데 많은 도움이 되었습니다. TabPFN은 Bayesian Neural Network와 Structural Causal Model을 기반으로 한 synthetic prior data를 생성하고, 이를 통해 PPD를 직접 학습하는 방식으로 동작합니다. TabPFN은 앞으로 tabular foundation model의 실질적인 대안으로 자리잡을 수 있는 높은 가능성을 보여준 사례라고 생각합니다. 좋은 논문 소개해주셔서 감사합니다!
이번 세미나에서는 “Accurate Predictions on Small Data with a Tabular Foundation Model” 논문을 주제로 발표가 진행되었습니다. TabPFN은 소규모 탭형(tabular) 데이터에서의 예측 정확도를 극대화하려는 매우 혁신적인 시도로, 기존의 데이터 중심 학습 패러다임과는 뚜렷이 구분되는 점이 인상 깊었습니다. 특히 사전 지식(prior)을 기반으로 한 베이지안 추론 과정을 학습하여 테스트 시점에서의 posterior prediction을 수행하는 구조는, 마치 사전 훈련된 언어모델의 철학을 정형데이터에 적용한 듯한 인상을 주었습니다. Synthetic prior 데이터를 Bayes 규칙 하에 PFN으로 학습하고, 실제 테스트 샘플을 통해 사후분포를 추정하는 방식은 이론적 정합성과 실용성을 동시에 갖춘 설계였습니다. 특히 인컨텍스트 러닝 형태로 작동하면서도 zero-shot에 가까운 generalization을 보인다는 점에서, 소량 데이터 환경에 적합한 foundation model의 가능성을 잘 보여준 사례라고 생각합니다. 소규모 데이터의 한계를 뛰어넘기 위한 새로운 접근으로써 깊은 인상을 남긴 발표였습니다. 좋은 발표 진행해주셔서 감사합니다.
이번 세미나에서는 "Accurate predictions on small data with a tabular foundation model" 라는 논문에 대한 소개를 중심으로 진행되었습니다. 이번 발표는 Tabular Prior-data Fitted Network(TabPFN)이라는 모델을 소개하며, 작은 데이터셋에서도 높은 정확도를 낼 수 있는 새로운 접근법을 다루었습니다. Transformer를 기반으로 베이지안 추론을 직접 학습하여 사후 예측 분포를 추정한다는 점이 가장 인상적이었습니다. 특히 prior 데이터를 생성할 때 Bayesian Neural Network와 Structural Causal Model을 사용해 synthetic 데이터를 만들어냈다는 점이 흥미로웠습니다. 이로 인해 실제 데이터가 적더라도 다양한 잠재적 데이터 분포를 학습할 수 있어, 실험적으로도 상당히 높은 일반화 성능을 보여주었습니다. 아쉬웠던 점은 TabPFN의 한계로 지적된 input feature 수에 대한 제약이었습니다. 발표에서 언급된 것처럼, 현재 버전의 TabPFN은 feature 수가 늘어날수록 성능과 학습 속도에서 한계가 발생하는데, 이는 실제 복잡한 tabular 데이터셋을 다루는 데 있어 실용성을 저해할 수 있다고 생각합니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나는 Bayesian Inference에서 Posterior predictive distribution, 즉 PPD의 계산이 복잡하다는 문제점을, 이를 직접적으로 예측 가능한 Network을 구성해서 해결한 Prior-Data Fitted Networks(PFN)을 Foundation Tabular Model로 확장한 TabPFNv2를 제안한 “Accurate predictions on small data with a tabular foundation model”라는 논문에 대한 발표를 중심으로 진행되었습니다. TabPFN 및 TabPFNv2는 기존 Bayesian Neural Network에 기반해 적은 학습 및 평가 시간을 가지고 Downstream Task에 대한 학습 없이 좋은 성능을 보였지만, 현실 상황에서 발생할 수 있는 결측치, Categorical Feature 등의 Tabular Dataset에 대한 가정 없이 Prior Dataset을 구성하며 학습 데이터 개수가 매우 적었던 PFN의 한계점을 극복하고 SCM과 이에 더해 Tree 혹은 Discretization을 활용한 모델 구조와 학습 데이터의 개수를 증폭시켜 Tabular Data에서의 Foundation Model로 활용될 수 있게 되었습니다. 어떠한 분야던 Foundation Model을 구축한다는 것이 고려할 사항도 굉장히 많아 어려운 연구임에도 불구하고 연구실 단위에서도 충분히 활용할 수 있을 만한 모델 크기와 또 잘 구성된 코드를 구축해놨다는 점이 향후 많은 사람들이 해당 모델을 사용하고, 또 확장된 모델이 등장할 가능성이 높은 좋은 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나에서는 작은 데이터셋에 대한 정확한 예측을 가능하게 하는 TabPFN을 제안한 ‘Accurate predictions on small data with a tabular foundation model’ 논문에 대해 발표해 주셨습니다. 해당 논문은 베이지안 추론을 Transformer에 통합해 사후 예측 분포를 직접 학습하는 방식이었습니다. 이 모델은 단순히 예측 정확도를 높이는 데 그치지 않고, 학습된 분포를 바탕으로 예측의 불확실성까지 함께 제공함으로써 모델의 신뢰도를 향상시킵니다. 특히 synthetic prior를 생성하는 방식에서 gaussian process와 bayesian neural network를 이용해 다양한 구조와 분포를 학습에 반영했다는 점이 흥미로웠고, 이를 통해 사전정보가 풍부하지 않은 상황에서도 높은 일반화 성능을 보장할 수 있다는 점에서 실용적인 의미가 크다고 느꼈습니다. Transformer 기반의 PFN이 포지션 인코딩 없이도 permutation invariance를 유지하며 작동하고, attention mask로 평가 샘플을 효과적으로 분리한 점도 인상깊었습니다. 또한 TabPFN v2에서는 2D attention을 도입해 feature-level 관계까지 반영함으로써 보다 강력한 표현력을 확보한 점이 인상 깊었고, 기존 SOTA 모델들보다 fine-tuning 없이도 우수한 성능을 보였다는 실험 결과는 foundation model로서의 가능성을 강하게 뒷받침했다고 생각합니다. 소규모 학습 데이터셋으로도 효과적인 추론이 가능하다는 점은 특히 의료나 금융 등 데이터 수집이 어려운 도메인에서 매우 유용하게 활용될 수 있을 것으로 기대됩니다. 좋은 발표해 주셔서 감사합니다.
이번 세미나에서는 작은 규모의 데이터에서도 높은 예측 성능을 발휘할 수 있는 Tabular Foundation Model인 TabPFNv2를 제안한 “Accurate predictions on small data with a tabular foundation model” 논문을 중심으로 발표가 진행되었습니다. 기존 PFN이 베이지안 추론의 사후 예측 분포(Posterior Predictive Distribution)를 직접 모델링함으로써 적은 학습으로도 강력한 성능을 보였던 반면, TabPFNv2는 결측치 처리, 범주형 변수 대응, feature 간 상호작용 학습 등 실제 Tabular 환경에서 요구되는 다양한 요건을 반영해 성능과 실용성을 크게 확장한 것이 인상 깊었습니다. 특히 SCM 기반의 prior data 구성 방식, discretization 전략, 그리고 2D attention을 통한 feature-level 표현 강화는 transformer 기반 구조가 tabular 데이터에서도 효과적으로 작동할 수 있음을 잘 보여주었습니다. Fine-tuning 없이도 다양한 다운스트림 태스크에서 높은 성능을 보였다는 점은 foundation model로서의 가능성을 입증하는 대목이었고, 연구실 단위에서도 활용 가능한 모델 크기와 코드 접근성 역시 실질적인 연구 활용 측면에서 긍정적으로 다가왔습니다. 적은 데이터로도 신뢰도 있는 추론이 가능한 모델을 찾고 있던 사람들에게 유용한 통찰을 줄 수 있는 유익한 발표였습니다.
기존의 Tabular data 학습 모델들이 데이터셋마다 별도로 모델을 학습해야 했던 것에 반해, TabPFN은 find-tuning 없이도 우수한 성능을 보인 것이 놀라웠으며, tabular data에서도 foundation model이 가능함을 알게 되어 인상적이었습니다. Bayesian 추론을 직접 수행하기엔 계산량이 너무 큰 상황에서, synthetic prior를 통해 approximate PPD를 미리 학습시켜두는 방식은 실용성을 넘어 학술적 의미도 매우 크다고 생각하여 역시 Nature에 게재될 만한 논문이라고 느꼈습니다. Gaussian process와 비교했을 때 거의 동일한 PPD를 도출해낸 결과에 대해서는, 이론적 기반을 실험적으로 어느 정도 검증해낸 것이기에 매우 탄탄한 연구라고 생각했습니다. 좋은 발표 해주신 덕분에 새로운 분야의 연구와 지식을 접할 수 있었습니다, 감사합니다.
이번 세미나에서는 TabPFNv2 논문을 중심으로, 기존 PFN의 한계를 극복하고 실제 Tabular Dataset의 다양한 제약 조건들을 효과적으로 반영한 새로운 접근법을 소개해 주셨습니다. Bayesian Inference의 복잡한 Posterior Predictive Distribution 계산 문제를 해결하기 위해, Prior-Data Fitted Networks의 개념을 기반으로 Synthetic Prior 데이터를 활용하는 방식을 소개하며 특히, 결측치 처리나 범주형 변수와 같이 현실 데이터에서 자주 마주치는 이슈들을 고려하여, SCM 및 Tree 혹은 Discretization 전략을 도입한 점이 인상 깊었습니다. 또한, TabPFNv2는 기존 모델이 작은 데이터셋에 국한되던 성능의 한계를 넘어, 학습 데이터의 증폭과 2D Attention을 통한 feature-level 관계 학습을 도입함으로써, Fine-tuning 없이도 다양한 다운스트림 태스크에서 뛰어난 예측 성능을 보여준다는 점이 매력적이었던 것 같습니다. Foundation Model 구축이라는 도전적인 목표를 달성하기 위한 실질적이고 혁신적인 해결책으로, 연구실 단위에서도 충분히 활용 가능할 정도로 코드와 모델 크기가 최적화되어 있다는 점이 향후 다양한 산학 프로젝트에서 활용도가 높을 것 같아 정말 유익했던 것 같습니다. 좋은 발표 감사합니다!
이번 세미나에서는 TabPFN(Tabular Prior-data Fitted Network)이라는 새로운 접근 방식의 머신러닝 모델을 접할 수 있었습니다. 특히 "작은 데이터에서도 높은 예측 성능을 보인다"는 점이 굉장히 인상 깊었습니다. 요즘처럼 대규모 데이터와 연산 자원이 당연시되는 시대에 이렇게 "적은 데이터"에 초점을 맞춘 모델이 실질적인 성과를 보여준다는 점에서 신선하게 다가왔습니다.
기존에는 적은 데이터 상황에서 일반적으로 overfitting을 피하기 위해 단순한 모델을 쓰거나 사전 지식을 녹인 feature engineering에 많이 의존했는데, TabPFN은 문제 해결을 위해 Bayesian inference를 transformer에 접목시키는 방식으로 풀어냈다는 점이 새로웠습니다. 특히 사전 지식을 synthetic prior data로 모델이 스스로 만들어낸다는 점은 흥미로웠으며 인간이 직접 데이터를 손보지 않고도 충분히 좋은 성능을 낼 수 있다는 가능성을 보여준 것 같았습니다.
또 하나 인상적이었던 건 TabPFN이 학습이 끝난 이후에는 새로운 데이터에 대해 굉장히 빠르게 예측할 수 있다는 점입니다. 사전에 학습된 PFN을 활용해서 test sample에 대해 곧바로 posterior distribution을 출력하는 방식은 마치 transformer가 prompt를 읽고 곧장 답을 내는 in-context learning과 비슷하며 대규모 언어 모델에서 배운 개념이 tabular domain에서도 어떻게 확장될 수 있는지를 보여준 좋은 예라고 느꼈습니다.
무엇보다도 이 모델이 단순히 하나의 논문으로 끝나는 게 아니라 현재까지도 Freiburg 대학 연구자들을 중심으로 활발히 연구가 이어지고 있다는 점에서 앞으로 tabular 모델링 분야에 새로운 패러다임을 제시할 수 있을 것으로 기대됩니다. 좋은 발표 준비해 주셔서 감사합니다.
이번 세미나는 태뷸라 데이터 대상의 foundation 모델(Prior-data Fitted Network, PFN)을 제안하는 연구가 소개되었습니다. 제안하는 방법론은 Bayesian 인공신경망을 여러가지 하이퍼파라미터의 분포로 부터 각 하이퍼파라미터를 선택한 후 구조를 형성하고, 해당 모델로 데이터를 생성합니다. 계속해서 새로운 베이지안 네트워크 모델로 데이터를 생성하고 PFN이 이를 통해 학습을 함으로써 Posterior predictive distribution (PPD)를 학습할 수 있게 됩니다. 그러므로 일반적인 예측 모델과는 다르게 deterministic 한 값보다 분포를 추론할 수 있게 됩니다. 그러므로 하위 과업을 위한 finetuning 시에도 이러한 PPD를 쉽게 추론 할 수 있게 되는 것입니다. AutoML 벤치마크 데이터셋 실험 결과 다른 머신러닝 모델보다 더 좋은 성능을 낸 것을 확인할 수 있었습니다. 흥미로운 발표 감사합니다.
이번 세미나에서는 TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second와 관련된 방법론을 제시한 발표를 중심으로 진행되었습니다. TabPFN은 Bayesian Inference 기반의 추론을 Transformer 구조를 통해 근사하는 Prior-Data Fitted Network(PFN)으로, 소규모 데이터셋에 대한 빠르고 정확한 예측을 가능하게 합니다. 본 발표에서는 PFN의 이론적 배경이 되는 Posterior Predictive Distribution(PPD), Synthetic Prior 생성 방식, Transformer의 Masking 전략과 같은 학습 설계에 대해 상세히 설명하고, 이를 기반으로 하는 TabPFN v2의 구조와 성능 확장에 대해 다루었습니다. TabPFN v2는 기존보다 훨씬 더 큰 규모의 Prior Dataset을 학습하고, Sample Attention뿐 아니라 Feature Attention까지 적용한 2D Transformer 구조를 채택하여 성능을 향상시켰습니다. 또한 Structural Causal Model(SCM)을 기반으로 다양한 인과 구조와 데이터 특성을 반영하는 Prior 생성 전략을 도입해, 다양한 tabular task에 대한 범용성과 fine-tuning 가능성을 입증하였습니다. 실험 결과, TabPFN은 기존 ML/DL 모델들보다 빠른 수렴 속도와 더 나은 Calibration 성능을 보였으며, fine-tuning 없이도 강력한 성능을 발휘하는 Tabular Foundation Model로서의 가능성을 보여주었습니다. 발표를 통해 소규모 데이터 문제 해결을 위한 이론적 접근과 실용적 모델 설계 간의 접점을 확인할 수 있었습니다.
이번 세미나는 tabular data에 대한 사전학습 및 추론 방식을 제안한 " TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second"을 중심으로 진행되었습니다. 이미지, 시계열, 자연어 등의 다양한 도메인에서 사전학습은 모델의 성능을 높히고 활용성을 증대시키는 효과적인 전략으로 알려져 있지만, tabular는 변수의 갯수, 변수의 분포 및 종류 등이 데이터마다 매우 다른 특성을 가지고 있어 그 동안 매우 어려운 것으로 인식되어 왔습니다. 이에 대해 해당 논문에서는 Prior 분포를 적극적으로 활용하여 가상의 분포들로 부터 변수 간 관계, 변수의 분포 등을 설정하고 학습 데이터를 만드는 방식으로 사전학습을 진행하게 됩니다. 성능 측면에서 주의깊게 살펴본 지점은 데이터의 크기에 따른 성능 변화입니다. 사전학습을 위해 모델 크기가 커지면서 속도가 느려지는 상황이 발생하게 됩니다. 하지만 TabPFN 모델은 학습 없이 ICL만으로도 준수한 성능을 보이고 있고, 데이터가 매우 적은 상황에서도 Tree 및 Gradient Boosting 기반 방법론들과 비슷하거나 더 좋은 모습을 보여주면서 tabular data에 대한 사전학습의 가능성을 확장시키고 있습니다. 매우 복잡한 수식을 기반으로 논문이 전개되는 만큼 쉽게 이해할 수는 없었지만, tabular의 특성 상 제한된 분포 후보들을 가지고 있다는 점에서 인상적이었습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 Tabular Foundation Model인 TabPFNv2를 제안한 “Accurate predictions on small data with a tabular foundation model” 논문을 소개해주셨습니다. TabPFNv2는 기존 Bayesian Inference에서의 Posterior Predictive Distribution(PPD) 계산 과정이 복잡하고 비용이 많이 드는 점을 해결하기 위해 Transformer 기반의 Prior-Data Fitted Network(PFN)을 확장한 모델로, 소규모 Tabular 데이터에서 빠르고 정확한 예측 성능을 제공합니다. 특히, Structural Causal Model(SCM)을 도입하고, Tree 및 Discretization 기법을 활용하여 더 풍부하고 다양한 특성을 반영한 Prior Dataset을 구성함으로써, 기존 PFN의 한계를 극복한 점이 인상적이었습니다. 또한 Sample Attention뿐만 아니라 Feature Attention을 활용한 2D Transformer 구조를 통해 모델의 성능과 범용성을 크게 확장하였으며, fine-tuning 없이도 다양한 downstream task에서 기존의 ML/DL 모델들보다 더 뛰어난 Calibration 성능과 예측력을 보여 Tabular Foundation Model로서의 가능성을 명확히 제시한 점에서 매우 유익한 연구라는 생각이 들었습니다. 좋은 발표 감사합니다.
금일 세미나에서는 "Accurate predictions on small data with a tabular foundation model" 논문을 소개해주셨습니다. 해당 연구에서는 Tabular data에 대한 foundation 모델을 제안하며, Nature라는 저명한 저널에 논문을 게재시켰습니다. 기존 PFN이 Bayesian 추론의 Posterior Predictive Distribution을 Transformer 구조를 통해 직접 근사함으로써 소규모 데이터에서도 빠르고 정확한 예측을 가능하게 했다는 점을 중점적으로 다루고 있으며, 추가적으로 SCM 기반 prior 생성, 결측치 및 범주형 변수 대응, 2D attention 등을 통해 보다 실제적인 데이터 환경에 적합하도록 모델이 확장된 점이 인상 깊었습니다. 특히 fine-tuning 없이도 다양한 downstream task에서 기존 SOTA 모델들과 경쟁하거나 이를 상회하는 성능을 보였다는 실험 결과는, Tabular Foundation Model로서의 실용성과 가능성을 충분히 보여주었습니다. 또한, 연구실 단위에서 접근 가능한 모델 크기와 코드 공개 또한 활용도 측면에서 매우 긍정적이었고, 실제 연구나 응용에서도 활용 가능성이 높아 보였습니다. 아무래도 tabular 데이터가 딥러닝 모델에서 보통 성능이 좋지 않다고 알려졌었지만, 그 와중에 이러한 연구가 나온 것이 매우 흥미로웠고, 새로운 발전 가능성을 보여준 것 같았습니다. 익숙하지 않은 분야라 준비 과정이 쉽지 않으셨을 텐데 좋은 발표 정말 감사드립니다.
이번 세미나에서는 Nature 2025에 발표된 "Accurate predictions on small data with a tabular foundation model" 논문을 중심으로, TabPFN과 TabPFN v2에 대해 소개해주셨습니다. 이 연구는 소규모 테이블형 데이터에서 높은 예측 성능을 달성하기 위해 베이지안 추론 개념을 Transformer 기반 네트워크에 적용한 Prior-Data Fitted Networks(PFN)를 제안합니다. 발표는 베이지안 추론의 개념과 Posterior Predictive Distribution의 계산 과정을 설명하며 시작되었고, Transformer 구조를 활용한 PFN이 어떻게 prior 정보를 활용하여 복잡한 계산을 효율적으로 처리하는지를 소개해주셨습니다. 특히, prior dataset을 생성하는 다양한 방식과 그 효과적인 활용이 인상적이었습니다. 이후 TabPFN과 v2의 구조적 확장과 실험 결과를 통해, fine-tuning 없이도 강한 일반화 성능을 보이는 점, 다양한 데이터 속성에서 안정적인 예측이 가능하다는 점이 강조되었습니다. 특히 v2에서는 feature attention이 추가되고, 더 복잡한 prior 생성 방식이 도입되며 모델의 활용 가능성이 크게 확장된 모습이었습니다. 소규모 데이터 문제를 근본적으로 해결하려는 접근과, tabular foundation model의 발전 방향에 대해 통찰을 제공해준 발표였습니다. 좋은 발표 감사합니다!
이번 세미나에서는 소규모 tabular 데이터에서도 높은 성능을 보이는 TabPFNv2 논문을 중심으로 발표가 진행되었습니다. TabPFNv2는 Bayesian Inference의 PPD 계산을 Transformer 기반으로 근사하는 PFN을 확장한 모델입니다. 기존 PFN의 한계를 극복하기 위해 SCM 기반 prior 생성, 결측치·범주형 변수 대응, feature 간 상호작용 학습 등이 추가되었습니다. 특히 2D attention 구조를 통해 sample 간 관계뿐만 아니라 feature 간 관계까지 효과적으로 학습합니다. 사전학습만으로도 다양한 downstream task에서 fine-tuning 없이 우수한 성능을 보이며, 실험적으로 기존 SOTA 모델들과 경쟁 가능한 결과를 보여주었습니다. 모델 크기와 코드 접근성이 좋아 실무 적용 가능성도 높습니다. Tabular 도메인에서 foundation model의 가능성을 확인할 수 있었던 유익한 발표였습니다. 좋은 발표 감사합니다.
이번 세미나에서는 소규모 데이터에서도 뛰어난 예측 성능을 보이는 Tabular Foundation Model인 TabPFNv2 논문을 중심으로 발표가 진행되었습니다. 기존 PFN이 Bayesian 추론의 Posterior Predictive Distribution을 Transformer로 근사하는 방식으로 적은 데이터에서도 강력한 성능을 보였던 반면, TabPFNv2는 결측치 처리, 범주형 변수, feature 상호작용 등 실제 tabular 환경에서의 요구사항을 보다 정교하게 반영했다는 점이 인상적이었습니다. 특히 SCM 기반의 synthetic prior 생성, feature discretization, 그리고 2D Attention 구조를 통해 feature-level 표현력을 높이고, 다양한 구조의 데이터를 잘 일반화할 수 있도록 설계된 점이 돋보였습니다. Fine-tuning 없이도 다양한 downstream task에서 강력한 성능을 보였다는 점은 Tabular Foundation Model로서의 가능성을 잘 보여주었고, 코드 접근성과 적정 모델 크기 역시 실용적 활용 측면에서 긍정적으로 다가왔습니다. 기존 LLM 기반 모델이나 Tree 기반 모델이 충분히 다루지 못했던 소규모 tabular 문제에 실질적 대안을 제시했다는 점에서, 향후 연구나 현업 응용에도 매우 유용한 프레임워크라 생각되었습니다. 좋은 발표 감사합니다!
이번 세미나에서는 “Accurate Predictions on Small Data with a Tabular Foundation Model” 논문을 중심으로, 소규모 데이터에서도 높은 예측 정확도를 달성할 수 있는 TabPFN 모델에 대해 심도 있는 발표를 해주셨습니다. 발표에서는 Bayesian 추론의 수식 전개 과정과 posterior predictive distribution의 개념까지 함께 설명해주셔서 이론적 기반을 이해하는 데 많은 도움이 되었습니다. TabPFN은 Bayesian Neural Network와 Structural Causal Model을 기반으로 한 synthetic prior data를 생성하고, 이를 통해 PPD를 직접 학습하는 방식으로 동작합니다. TabPFN은 앞으로 tabular foundation model의 실질적인 대안으로 자리잡을 수 있는 높은 가능성을 보여준 사례라고 생각합니다. 좋은 논문 소개해주셔서 감사합니다!