平铺式基础模型(tabulaires)正在作为 ML 的替代方案兴起

Les modèles de fondation tabulaires émergent en alternative au ML

Silicon.fr by Clément Bohic 2026-05-21 16:52 Original
摘要
德国高校研究团队在2023年提出TabPFN,并在2025年扩展到回归;同年开源模型TabICL进一步把上下文学习窗口扩展至50万例(column-then-row架构),其v2在2026年引入Muon优化器与可扩展softmax以提升效果。H2O.ai随后基于该架构推出TabH2O,并在2026年4月发布后于Dell Technologies World(5月18-21日)再次重点推广:TabH2O用单阶段预训练、分类与回归双头与更省资源的训练策略来降低算力消耗,同时支持最高12,288行/100特征的稳定训练与大规模推理(可达每GPU约50万行),但在TALENT基准上的精度略弱于TabICL、整体更偏向“更快更省”。

表格型基础模型正逐步成为传统机器学习(ML)的替代方案,核心优势在于“上下文学习”(in-context learning):Transformer 不必针对每个数据集单独调参,就能直接处理表格数据。德国高校研究者早在 2023 年就以 TabPFN 证明了这一点,2025 年又把能力扩展到回归任务。同年,开源模型 TabICL(ICL 即 in-context learning)出现,将可学习窗口扩展到 50 万个样本,并采用“column-then-row”架构:注意力依次作用于列、行,再到整个数据集。其 v2 版本在 2026 年进一步提升性能,引入 Muon 优化器和可随查询扩展的 softmax。

H2O.ai 在此基础上推出自己的表格基础模型 TabH2O,并在 4 月中旬首次介绍后,于 5 月 18 日至 21 日的 Dell Technologies World 上再次重点展示。其卖点与传统 ML 相比是不需要为每个数据集单独训练;与 AutoML 相比更省资源;与 TabICL 相比则在架构上做了多项改进。最关键的是,TabH2O 采用一个同时覆盖分类和回归的双头模型,预训练时每个 mini-batch 都混合了两类数据集,比例为 80% 分类、20% 回归,这有助于降低资源消耗。

另一个重要变化是预训练只需一阶段完成。TabICL 为了稳定性曾分三阶段训练,分别是 50 万步、4 万步和 1 万步;而 TabH2O 通过 RMSNorm 归一化和 logits 上限裁剪增强稳定性,使模型从一开始就能处理最长序列——最多 12,288 行、每个数据集最多 100 个特征。为此,TabH2O 约使用了 640 万个合成数据集,远少于 TabICL v2 的近 3500 万个。

H2O.ai 还强调其扩展能力可达到“每个 GPU 最多 50 万行”。合成数据集的生成方式是:先采样一个随机 DAG(有向无环图),边密度可配置,每个节点最多 10 个父节点;再为每个节点分配 8 种函数类型之一,并从多种分布中采样根节点值,在 DAG 中逐层传播。面对大数据集,TabH2O 会把训练行拆分成多个子集分别处理,再对预测结果取平均;结合 key-value cache 和 activation offloading,才能把单 GPU 处理规模推到 50 万行。

H2O.ai 通过 API 提供该模型,免费版限制包括:每分钟 2 次请求、每天 20 次、每月 500 次、单次最多 10 万行、100 列。聚类和缺失值填充属于付费功能;同时提供 Excel 和 Google Sheets 插件,以及面向 agents 的 skill。时间序列回归仍处于实验阶段,多模态能力目前不在支持范围内。

在性能上,TabH2O 的定位是“比 TabICL 更省资源,但性能略弱”。H2O.ai 4 月曾在 TALENT 基准(300 个数据集)上公布平均得分 2.37(数值越低越好),介于 TabPFN 和 TabICL 之间,并称处理速度大致为:1500 行 1.1 秒、7000 行 1.4 秒、1.5 万行 2.9 秒、5 万行约 20 秒。到了 Dell Technologies World,公布的平均分略差,为 2.55,但其他模型表现也同步变动。H2O.ai 对测试方法的说明也更具体:3 个任务、6 种方法。公司更强调一个更贴近真实使用的指标——无论列数多少,10,000 行以内的数据集都能在 3 秒内给出预测。

在小数据集上,主要延迟来自网络本身而非模型推理:1000 行、20 列时,推理仅 189 毫秒,而 API 往返耗时约 0.4 秒。对于最大测试配置——50 万行、50 个特征——采用分片处理后,预测大约需要 5 分钟。

Summary
German academic researchers’ TabPFN (2023) and the open TabICL model (with up to 500,000 in-context examples via a “column-then-row” attention pipeline, v2 in 2026) showed that transformer-based context learning can work well for tabular classification and regression. H2O.ai then built on this architecture to launch TabH2O, a single tabular foundation model with two heads (classification + regression), trained in one pretraining phase for stability and lower compute, and designed to scale to very large inputs (up to ~500,000 rows per GPU). H2O.ai is offering TabH2O via API with usage limits and paid features (e.g., clustering and missing-value filling), positioning it as less resource-intensive than TabICL while trading off some benchmark performance.

Tabular foundation models are gaining traction as an alternative to traditional machine learning, with transformer-based architectures showing strong results on structured data through in-context learning. German university researchers first demonstrated the approach in 2023 with TabPFN, later extending it to regression in 2025. That same year, an open model called TabICL emerged, scaling in-context learning to 500,000 examples through a “column-then-row” architecture: attention is applied first across columns, then rows, then the full dataset. Its v2 release in 2026 improved performance further by adding the Muon optimizer and a scalable softmax tied to queries.

H2O.ai has now adapted that architecture into its own tabular foundation model, TabH2O, which it highlighted again at Dell Technologies World on May 18-21 after an initial mid-April launch. The company’s pitch is unchanged: unlike conventional ML, the model does not need to be tuned for each dataset; unlike AutoML, it uses fewer resources; and unlike TabICL, it introduces several architectural changes aimed at efficiency and stability.

The biggest change is that a single two-headed model handles both classification and regression. During pretraining, each mini-batch mixed datasets from both tasks in an 80/20 split, helping reduce compute usage. H2O.ai also collapsed pretraining into a single phase, whereas TabICL required three stages — 500,000 steps, then 40,000, then 10,000 — to maintain stability. RMSNorm and logit clipping were used to stabilize training further, allowing the model to work from the outset on maximum-length sequences of 12,288 rows with up to 100 features. In total, TabH2O was trained on about 6.4 million synthetic datasets, far fewer than the nearly 35 million used for TabICL v2.

To generate synthetic data, H2O.ai samples a random DAG with configurable edge density and up to 10 parents per node, assigns one of eight function types to each node, then propagates root values drawn from multiple distributions through the graph. For large datasets, TabH2O can split training rows into subsets and average the predictions. Combined with key-value caching and activation offloading, this lets it scale to as many as 500,000 rows per GPU.

The model is available through H2O.ai’s API, with free-tier limits of 2 requests per minute, 20 per day, 500 per month, 100,000 rows per request, and 100 columns. Clustering and missing-value imputation are paid features. Excel and Google Sheets plug-ins are available, along with an agent skill. Regression for time series remains experimental, and multimodal support is not included for now.

On performance, H2O.ai says TabH2O is less resource-hungry than TabICL but also less accurate. In April, the company reported a mean score of 2.37 on the TALENT benchmark, where lower is better, placing it between TabPFN and TabICL. It also said inference times averaged 1.1 seconds for 1,500 rows, 1.4 seconds for 7,000 rows, 2.9 seconds for 15,000 rows, and about 20 seconds for 50,000 rows. At Dell Technologies World, the score was slightly worse at 2.55, though the other models also performed less well. H2O.ai provided only limited methodological detail — three tasks and six methods — but emphasized a more practical metric: regardless of column count, predictions arrive in under 3 seconds for datasets up to 10,000 rows.

For small datasets, network overhead is the main source of latency: on 1,000 rows and 20 columns, inference takes 189 ms, compared with 0.4 seconds for the API round trip. At the largest tested configuration, 500,000 rows by 50 features, prediction takes around 5 minutes using fragmented processing.

Résumé
H2O.ai a présenté et remis en avant lors du Dell Technologies World (18-21 mai) TabH2O, un modèle de fondation tabulaire inspiré de l’apprentissage en contexte (TabPFN/TabICL), conçu pour traiter à la fois classification et régression via un modèle à deux têtes. Par rapport à TabICL, TabH2O réduit la consommation de ressources grâce à un préentraînement en une seule phase, une architecture “column-then-row”, et des techniques de stabilité (RMSNorm, plafonnement des logits), tout en gérant jusqu’à 500 000 lignes par GPU via fragmentation et cache clé-valeur. Proposé via API (avec limites gratuites), il vise une latence maîtrisée et un meilleur compromis que le ML traditionnel et l’AutoML, mais avec des performances annoncées légèrement inférieures à TabICL sur certains benchmarks.

Grâce à l’apprentissage en contexte, les modèles transformeurs peuvent se révéler performants dans la classification de données tabulaires.

Des chercheurs universitaires allemands l’avaient démontré en 2023, sous la bannière TabPFN. En 2025, ils avaient étendu le périmètre à la régression.

La même année avait émergé un modèle ouvert reprenant l’approche d’apprentissage en contexte : TabICL (ICL pour « in-context learning »). Il élargissait la fenêtre d’apprentissage jusqu’à 500 000 exemples, grâce à une architecture dite « column-then-row ». Dans les grandes lignes, elle implique un pipeline à trois étapes, l’attention étant appliquée successivement sur les colonnes, les lignes, puis le dataset entier.

La v2, sortie en 2026, a accru les performances, notamment en intégrant l’optimiseur Muon et un softmax scalable en fonction des requêtes.

Un seul modèle, une seule phase de préentraînement

H2O.ai a repris cette architecture pour concevoir son propre modèle de fondation tabulaire : TabH2O. Après l’avoir présenté mi-avril, il a profité du Dell Technologies World (18-21 mai) pour le remettre en avant.

D’un mois à l’autre, le pitch n’a pas changé : avantageux face au ML traditionnel car pas besoin d’ajuster pour chaque dataset. Avantageux aussi face à AutoML car moins de ressources consommées. Et avantageux face à TabICL, de par plusieurs évolutions architecturales.

En premier lieu, classification et régression sont gérées par un même modèle, à deux têtes. Chaque mini-batch de préentraînement a associé des datasets couvrant l’une et l’autre tâche (80 et 20 % respectivement). Ce mécanisme a contribué à réduire la consommation de ressources.

Autre différence qui a également réduit l’empreinte : le préentraînement s’est fait en une seule phase. Avec TabICL, il en avait fallu trois (500 000 étapes, puis 40 000, puis 10 000) pour des questions de stabilité.

Des techniques comme la normalisation RMSNorm et le plafonnement des logits ont permis de renforcer cette stabilité, permettant au modèle de travailler dès le départ sur des séquences de la longueur maximale (12 288 lignes avec jusqu’à 100 features). Au final, environ 6,4 millions de datasets synthétiques auront été nécessaires, alors que TabICL v2 en a utilisé près de 35 millions.

« Jusqu’à 500 000 lignes par GPU »

Pour créer un dataset synthétique, on échantillonne un DAG aléatoire (densité d’arêtes configurable ; maximum 10 parents par nœud). On assigne à chaque nœud un type de fonction (parmi 8) et on échantillonne, à partir de plusieurs distributions, des valeurs racines qu’on propage dans le DAG.

Sur les gros datasets, TabH2O peut fragmenter le traitement. Il divise les lignes d’entraînement en sous-ensembles et fait la moyenne des prédictions. En combinaison avec le cache clé-valeur et le déchargement des activations, cela permet d’aller jusqu’à 500 000 lignes par GPU.

H2O.ai propose le modèle sur son API, avec les limites suivantes en version gratuite :

2 requêtes par minute

20 requêtes par jour

500 requêtes par mois

100 000 lignes par requêtes

100 colonnes

Clustering et remplissage des valeurs manquantes sont des fonctionnalités payantes. Des plug-in Excel et Google Sheets sont disponibles, ainsi qu’une skill pour les agents. La prise en charge de la régression sur les séries chronologiques reste expérimentale. Et la multimodalité est pour le moment hors champ.

Moins gourmand que TabICL, mais moins performant

En avril, H2O.ai avait communiqué quelques scores de performance sur le benchmark TALENT (300 datasets). Sans entrer dans les détails de son évaluation, il avait annoncé un score moyen de 2,37 (le plus bas étant le meilleur). Cela plaçait TabH2O entre TabPFN et TabICL. Il ajoutait qu’il fallait en moyenne :

1,1 seconde pour traiter 1500 lignes

1,4 seconde pour 7000 lignes

2,9 secondes pour 15 000 lignes

Environ 20 secondes pour 50 000 lignes

Le score communiqué à l’occasion du Dell Technologies World est un peu moins bon (2,55). Mais il en va de même pour les autres modèles. H2O.ai est à peine plus précis sur sa méthodologie de test (3 tâches, 6 méthodes). Il insiste davantage sur un indicateur censé refléter les usages réels : qu’importe le nombre de colonnes, les prédictions arrivent en moins de 3 secondes pour les datasets jusqu’à 10 000 lignes.

Sur les petits datasets, le réseau est le principal producteur de latence. Pour 1000 lignes et 20 colonnes, il y a 189 ms d’inférence, contre 0,4 s de roundtrip API. Avec la plus grosse configuration testée (500 000 lignes x 50 features), la prédiction arrive en 5 minutes environ avec le traitement fragmenté.

Illustration principale générée par IA

The post Les modèles de fondation tabulaires émergent en alternative au ML appeared first on Silicon.fr.

AI Insight
Core Point

H2O.ai推出TabH2O,用“表格基础模型+上下文学习”替代传统ML/AutoML,并通过单阶段预训练与架构优化降低资源消耗;但在TALENT基准上精度略弱于部分同类。

Key Players

H2O.ai — 开发TabH2O表格基础模型,提供API与Excel/Sheets插件;总部在美国(推文/活动中体现)。

TabPFN(研究团队) — 2023提出基于上下文学习的表格Transformer思路;德国高校研究。

TabICL(开源模型) — 2025开源扩展上下文学习到更大窗口(column-then-row);研究/开源社区。

Industry Impact
  • Computing/AI: High — 表格任务基础模型化(分类+回归同模、单阶段预训、可扩展softmax/优化器)推动替代传统ML范式。
  • ICT: Medium — 以API形态交付推理与数据处理能力,影响企业数据科学工作流与成本。
  • Terminals/Consumer Electronics: Low — 与终端硬件关联不大。
Tracking

Monitor — TabH2O在资源与延迟上强调可用性,且与TabICL路线竞争,值得关注其基准与落地进展。

Related Companies
neutral
neutral
neutral
H2O.ai
scale-up
neutral
neutral
Categories
人工智能 软件 创业
AI Processing
2026-05-21 22:38
openai / gpt-5.4-nano