Robocikowo>ROBOCIKOWO
Architektura

Tabular Foundation Model

2022AktywnyOpublikowany
Wzorzec: foundation model dla danych tabelarycznych przewidujący zero-shot, łączący in-context learning z pre-treningiem na syntetycznych priorach (PFN).
Kluczowa innowacja
Foundation model wstępnie trenowany na milionach syntetycznych zbiorów danych tabelarycznych, wykonujący zero-shot predykcje (klasyfikacja, regresja) w jednym przebiegu sieci, bez trenowania na docelowym zbiorze.
Kategoria
Architektura
Poziom abstrakcji
Pattern
Poziom operacji
ModelInferencja
Zastosowania
Klasyfikacja i regresja na danych tabelarycznych w finansach (scoring kredytowy, ryzyko), zdrowiu (wspomaganie decyzji klinicznych, profilowanie pacjentów), przemyśle (predictive maintenance), marketingu (MMM, demand forecasting), badaniach naukowych z ograniczoną liczbą próbek.

Jak działa

Pre-trening: próbkuj miliony syntetycznych zbiorów danych z bayesowskiego prior nad strukturalnymi związkami przyczynowymi (SCM); dla każdego zbioru wytrenuj transformer do przewidywania etykiet testowych na podstawie etykietowanego kontekstu treningowego. Inferencja: podaj transformerowi cały zbiór treningowy {(x_i, y_i)} jako kontekst plus punkty testowe x_test; model w jednym forward pass zwraca p(y_test | x_test, kontekst). Brak trenowania ani fine-tuningu na zbiorze docelowym (chyba że w wariancie TabPFN Enterprise z dodatkowym fine-tuningiem).

Rozwiązany problem

Eliminuje konieczność trenowania osobnego modelu i strojenia hiperparametrów dla każdego nowego zbioru tabelarycznego, dostarczając wysokiej jakości predykcje w sekundach na małych i średnich zbiorach danych (do 50K wierszy w TabPFN-2.5).

Mocne strony i ograniczenia

Mocne strony
Brak trenowania per-zbiór (sekundy zamiast godzin/dni). Brak strojenia hiperparametrów. Konkurencyjna lub przewyższająca dokładność względem strojonych GBM (XGBoost, AutoGluon) na zbiorach do 50K wierszy. Naturalna kalibracja niepewności. Robustność na brakujące wartości i cechy kategorialne.
Ograniczenia
Ograniczenia rozmiaru zbioru (TabPFN-2.5: 50K wierszy / 2K cech). Wagi pod licencją niekomercyjną (TabPFNv2/2.5 OSS) — komercja wymaga API/Enterprise. Inferencja kwadratowa względem rozmiaru kontekstu. Mniej wyjaśnialny niż klasyczne drzewa decyzyjne. Wciąż wczesny ekosystem narzędzi.

Komponenty

Synthetic PriorŹródło różnorodności pre-treningu zastępujące rzeczywiste zbiory danych

Generator syntetycznych zbiorów danych próbkujący z bayesowskiego prior nad funkcjami (Structural Causal Models, BNN, Gaussian Processes). W TabPFN stanowi dystrybucję, na której model jest pre-trenowany — efektywnie 'amortyzowana' Bayesian inference.

Structural Causal Models (SCM)Główny prior w TabPFNv2 — losowe DAG-i z funkcjami nieliniowymi.
Bayesian Neural NetworksPierwotny prior w TabPFNv1.
Gaussian ProcessesKlasyczny prior dla regresji w pracy PFN (Müller 2022).

Oficjalna

In-Context Learning EngineAproksymacja posteriori p(y|x,D) w jednym forward pass

Transformer przyjmuje cały zbiór treningowy (X_train, y_train) plus punkty testowe X_test jako kontekst i w jednym przebiegu zwraca p(y_test | x_test, D_train). Brak gradientowego trenowania na zadaniu docelowym.

INF = liczba cech, +1 dla y (NaN dla testowych), N_train + N_test ≤ context_length.
OUTK = liczba klas (klasyfikacja) lub 1 (regresja, parametry rozkładu).
Feature/Sample TokenizationMostkowanie danych tabelarycznych do reprezentacji sekwencyjnej Transformera

Mechanizm zamiany wiersza tabeli na sekwencję tokenów. TabPFNv2 używa per-feature embeddingów + sample-level pozycji, traktując każdą komórkę jako token. Pozwala obsłużyć heterogeniczne typy cech (numeryczne, kategoryczne).

Oficjalna

Two-Way (Row+Column) AttentionNiezmienniczość permutacyjna i modelowanie zależności między cechami i przykładami

Architektura TabPFNv2/2.5 łączy uwagę po wierszach (samples attend to other samples) i po cechach (features attend to other features) — kluczowa dla niezmienniczości na permutację cech i przykładów.

Posterior Predictive HeadWyjście probabilistyczne z naturalną kalibracją

Końcowa warstwa zwraca rozkład predykcyjny — dla klasyfikacji softmax nad klasami, dla regresji parametry rozkładu (mixture of Gaussians lub bin-based dla TabPFNv2). Daje natywne miary niepewności.

Oficjalna

Implementacja

Pułapki implementacyjne
Brak skalowania do dużych zbiorów (>50K wierszy)Wysoka

Cały zbiór treningowy musi zmieścić się w kontekście. Dla zbiorów >50K wierszy TabPFN wymaga subsamplingu lub ensemblingu — nie jest drop-in zastępcą XGBoost na big data.

Rozwiązanie:Stratified subsampling, ensembling po subsamplach, lub klasyczny GBDT dla N>50K. Ewentualnie przyszłe wersje (skalowanie kontekstu).
Niedopasowanie prior do realnej dystrybucji danychŚrednia

Jeśli rzeczywiste dane mają strukturę nieobjętą przez syntetyczny prior (np. ekstremalna heteroskedastyczność, silne efekty czasowe), TabPFN może działać gorzej niż XGBoost.

Rozwiązanie:Diagnostyka rezydualna, porównanie z baseline GBDT na każdym zadaniu, użycie wyspecjalizowanych wariantów (TabPFN-TS dla szeregów czasowych).
Wymóg GPU dla średnich i dużych zbiorówŚrednia

W przeciwieństwie do XGBoost (CPU-friendly), TabPFN-2.5 wymaga GPU klasy A100/H100 dla zbiorów >10K wierszy. Może być nieakceptowalne w środowiskach edge/CPU-only.

Rozwiązanie:Użycie API Prior Labs / SageMaker / Azure AI Foundry / Databricks zamiast self-hostingu, lub fallback do GBDT.
Niekomercyjna licencja wag TabPFNv2/2.5Wysoka

Wagi TabPFNv2 i TabPFN-2.5 udostępnione na Hugging Face mają licencję non-commercial. Komercyjne użycie wymaga API Prior Labs lub komercyjnych platform (SageMaker, Azure AI Foundry, Databricks).

Rozwiązanie:Sprawdź licencję modelu. Dla produkcji komercyjnej — API lub managed offering, nie self-host wag z HF.
Brak fine-tuningu na zadaniu docelowymNiska

TabPFN nie pozwala (z definicji) na gradientowe douczanie na docelowym zbiorze. Dla zadań z silnym sygnałem domeny (np. medycznych biomarkerów) brak fine-tuningu może ograniczać wydajność względem dedykowanego modelu.

Rozwiązanie:Feature engineering, ensembling z modelem domenowym, lub klasyczny model jeśli ICL nie wystarcza.

Ewolucja

Oryginalny paper · 2022 · ICLR 2022 · Samuel Müller
Transformers Can Do Bayesian Inference
Samuel Müller, Noah Hollmann, Sebastian Pineda Arango, Josif Grabocka, Frank Hutter
2021
Prior-Fitted Networks (PFN) — koncepcja
Punkt przełomowy

Müller et al. publikują 'Transformers Can Do Bayesian Inference' — pokazując, że Transformer pre-trenowany na próbkach z prior aproksymuje posteriori w jednym forward pass.

2022
TabPFN v1
Punkt przełomowy

Hollmann et al. udostępniają TabPFN — pierwszy PFN dla danych tabelarycznych. Ograniczenie: ~1K wierszy, ~100 cech, klasyfikacja.

2024
Powstanie Prior Labs (Freiburg)

Hollmann, Müller i Hutter zakładają Prior Labs jako spin-off Uniwersytetu we Freiburgu — komercjalizacja linii TabPFN.

2025
TabPFN v2 (Nature)
Punkt przełomowy

Publikacja TabPFNv2 w Nature — wsparcie regresji, ~10K wierszy, two-way attention, prior oparty na SCM. Pokonuje XGBoost w state-of-the-art na małych/średnich zbiorach.

2025
TabPFN-2.5 i TabPFN-TS

Skalowanie do 50K wierszy × 2K cech (TabPFN-2.5) dorównujące AutoGluon 1.4 z 4-godzinnym tuningiem na TabArena. Specjalizowany TabPFN-TS dla szeregów czasowych.

2025
Akwizycja Prior Labs przez SAP

SAP ogłasza umowę przejęcia Prior Labs (>€1B w okresie 4 lat) — komercjalizacja TabPFN w stosie enterprise (S/4HANA, Joule).

Szczegóły techniczne

Złożoność obliczeniowa

Złożoność czasowa: O((N_train + N_test)² · d_model) per warstwa (klasyczna pełna uwaga) lub O((N_train + N_test) · d_model) z FlashAttention/sparse. Złożoność przestrzenna: O((N_train + N_test)² + (N_train + N_test) · F · d_model).

Wąskie gardło obliczeniowe

Pełny zbiór treningowy w kontekście

Inaczej niż XGBoost (który widzi dane raz w treningu), TabPFN przetwarza cały zbiór treningowy przy każdej predykcji. To czyni inferencję O(N_train²), co dla dużych zbiorów (>50K wierszy) staje się praktycznym ograniczeniem.

Zależy od
Training set size (N_train)Number of features (F)GPU memory

Paradygmat wykonania

Tryb główny
dense

Architektura jest dense Transformerem (bez MoE). Cały model aktywuje się przy każdej predykcji.

Wzorzec aktywacji
all_paths_active
Mechanizm routingu

Równoległość

Poziom równoległości
fully_parallel

Brak gradientowego trenowania na zadaniu docelowym — to fundamentalna różnica względem XGBoost/RF.

Zakres
traininginferenceacross_tokensacross_devices
Ograniczenia
!Pre-trening TabPFN to niezależne syntetyczne zbiory danych — w pełni równoległy across_devices (każdy GPU widzi inny zbiór). Po pre-treningu inferencja jest pojedynczym forward passem.

Wymagania sprzętowe

Podstawowe

TabPFN-2.5 jest projektowany pod GPU z Tensor Cores (A100/H100/B200). FP16/BF16 dense matmul + FlashAttention to dominujące operacje.

Dobry fit

Architektura Transformer-based jest natywnie kompatybilna z TPU; brak oficjalnych deploymentów Prior Labs na TPU, ale to wykonalne (XLA/JAX).

Ograniczony

TabPFNv1 i małe instancje TabPFNv2 (<1K wierszy) działają na CPU, ale opóźnienie rośnie szybko. Dla większych zbiorów CPU jest praktycznie wykluczone.