STRABLE

Name: STRABLE
Creator: 法国国家信息与自动化研究所·SODA团队; 弗莱堡大学; Prior Labs; 图宾根ELLIS研究所; 以色列理工学院
Published: 2026-05-12 23:47:50
License: 暂无描述

arXiv2026-05-12 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/inria-soda/STRABLE-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

STRABLE是由法国国家信息与自动化研究所SODA团队等机构联合构建的基准数据集，旨在填补含字符串表格机器学习研究领域的空白。该数据集包含108个真实世界表格，涵盖监督学习任务，其中包含13个二分类、19个多分类和76个回归问题，数据规模中位数为7.7K行和18列，字符串特征涵盖名称、结构化代码、自由文本等多种类型。数据集通过从33个不同来源收集原始数据并仅进行最小化预处理构建而成，保留了字符串的原始异质性。该数据集主要应用于评估混合数值与字符串特征的表格学习算法性能，解决传统基准忽略高基数语义字符串的局限性，为开发端到端架构和模块化流水线提供实证基础。

STRABLE is a benchmark dataset jointly constructed by the SODA Team from the French National Institute for Computer Science and Applied Mathematics (INRIA) and other institutions, aiming to fill the research gap in the field of machine learning on tabular data with string features. This dataset includes 108 real-world tabular tasks covering supervised learning scenarios, specifically 13 binary classification, 19 multi-class classification, and 76 regression problems. The median scale of these tasks is 7.7 thousand rows and 18 columns, with string features encompassing diverse types such as names, structured codes, free text, and more. Constructed by collecting raw data from 33 distinct sources with only minimal preprocessing, the dataset preserves the original heterogeneity of string features. It is primarily used to evaluate the performance of tabular learning algorithms that mix numerical and string features, addressing the limitation of traditional benchmarks that overlook high-cardinality semantic strings, and providing an empirical foundation for developing end-to-end architectures and modular pipelines.

提供机构：

法国国家信息与自动化研究所·SODA团队; 弗莱堡大学; Prior Labs; 图宾根ELLIS研究所; 以色列理工学院

创建时间：

2026-05-12

原始信息汇总

STRABLE Benchmark 数据集概述

基本信息

数据集名称：STRABLE Benchmark
许可证：CC-BY-4.0
语言：英语
数据集规模：100,000 < 样本数 < 1,000,000
数据集大小：108 个独立表格

数据集简介

STRABLE 是一个专门用于评估机器学习模型在包含字符串的表格数据上性能的综合性基准测试套件。该数据集包含 108 个同时包含字符串和数值的表格，涵盖多个应用领域，旨在支持对表格数据中字符串处理的实证研究。

数据来源

仓库地址：https://github.com/soda-inria/strable
论文地址：https://arxiv.org/pdf/2605.12292
项目主页：https://soda-inria.github.io/strable

用途

直接用途

该数据集面向评估表格机器学习流程的研究人员和从业者，可用于回答关于表格中字符串表示的关键研究问题：是否需要专用的端到端学习器，或者模块化架构（将字符串编码器与表格学习器结合）是否足够。数据集涵盖二分类、多分类和回归任务。

超出范围的使用

该数据集由“自然场景中”的包含字符串条目的表格组成，而非长篇自由文本或文档级别数据。数据提取代表静态横截面快照，不适合评估时间序列或时间动态。

数据集结构

整个语料库包含 108 个独立的表格，每个表格作为一个独立的数据集配置组织在文件夹中。每个数据集文件夹包含以下文件：

config.json：配置文件，包含目标变量名称等信息
data.parquet：数据文件（Parquet 格式）

数据集创建

数据来源

数据来自 33 个不同来源，涵盖 8 个应用领域：

商业
经济
教育
能源
食品
健康
基础设施
社会

数据收集与处理

采用最小预处理以保持数据的真实异构性：

展平嵌套结构并删除重复行
删除单值列、全空列和缺少标签的行
移除作为目标变量平凡函数的特征以防止数据泄漏
不对缺失值进行填充，保留给编码器-学习器流程处理
对大表格进行子采样，最多保留 75,000 行以确保计算可行性
对回归任务的目标变量应用偏度最小化协议

引用信息

bibtex @misc{blayer2026strablebenchmarkingtabularmachine, title={STRABLE: Benchmarking Tabular Machine Learning with Strings}, author={Gioia Blayer and Myung Jun Kim and Félix Lefebvre and Lennart Purucker and Alan Arazi and Eilam Shapira and Roi Reichart and Frank Hutter and Marine Le Morvan and David Holzmüller and Gaël Varoquaux}, year={2026}, eprint={2605.12292}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2605.12292}, }

搜集汇总

数据集介绍

构建方式

STRABLE数据集的构建始于从33个不同来源、横跨8个应用领域的数据聚合，涵盖了从大型机构库到社区驱动平台等多种数据源。构建流程严格遵循了以下标准：首先，仅选择至少包含两个字符串列且样本量不低于500条的数据表，并为每张表配对一个用于监督学习的目标变量。为了真实反映数据准备的现实瓶颈，构建过程中采用了最小化预处理策略，仅进行展平嵌套结构、移除重复行、剔除单值列、全空列及缺失标签行等基础清洗操作，并去除目标变量的平凡函数特征。缺失值交由编码器-学习器管线自行处理。最终，该语料库包含108张真实世界表格，涉及13个二分类、19个多分类和76个回归任务。

使用方法

STRABLE数据集适用于评估和比较不同表格学习管线在包含字符串的表格上的表现。使用时，数据以原始格式提供，用户可自由选择或设计字符串编码器（如Tf-Idf、Sentence Transformers、大型语言模型）、后处理策略（如PCA降维、标准缩放）以及下游表格学习器（如XGBoost、TabPFN-2.5）进行组合。研究采用嵌套交叉验证协议：外部3折用于性能评估，内部8折用于超参数调优。对于回归任务，数据集已应用偏度最小化目标变换以确保公平评估。结果解读时应注意，STRABLE的字符串分布以短字符串为主，这为轻量级编码器提供了优势，而大型语言模型在自由文本主导的表格上才更具竞争力。

背景与挑战

背景概述

STRABLE 数据集诞生于2026年，由法国国家信息与自动化研究所（INRIA）SODA团队联合弗莱堡大学、Prior Labs、以色列理工学院等机构的研究人员共同构建。核心研究问题聚焦于机器学习领域一个长期被忽视的挑战：现实世界的表格数据广泛包含字符串条目（如名称、代码、自由文本），而现有基准测试（如ImageNet、OpenML）或严格限定为纯数值型，或对字符串进行粗糙的数值化编码，导致字符串与数值混合建模的研究严重滞后。STRABLE 通过收集横跨经济、健康、教育等8个应用领域的108张真实表格，首次系统性地为字符串表格学习提供了坚实的评测平台，其排名结果接近理论最优排序，显著推动了该领域的方法论发展。

当前挑战

STRABLE 所应对的核心领域挑战在于：字符串携带的语义信号与传统数值特征高度互补，然而现有学习方法难以高效融合二者。具体表现为：1）分类挑战——如何判断专用端到端架构是否优于先编码后学习的模块化流水线；2）维度灾难——大语言模型产生的高维嵌入（如4096维）需要精心设计降维策略，而标准PCA对解码器模型失效，需采用标准差缩放或直接切片；3）构建过程中的数据异质性难题——来自33个不同来源的原始表格格式各异（CSV、JSON、HTML），且字符串类型涵盖名称、自由文本、结构化代码等，预处理必须极小化以避免偏倚，同时需处理缺失值、偏态目标分布及高达75,000行的采样限制。

常用场景

经典使用场景

在表格数据机器学习的广袤领域中，字符串特征长期被忽视，而STRABLE数据集应运而生，为这一交叉地带的研究提供了坚实基石。该数据集的核心经典用法在于作为评估和比较不同类型表格学习流水线的基准测试平台。具体而言，研究者可利用其108张来自真实世界的、包含原始字符串与数值特征的表格，系统性地对比模块化流水线（即先将字符串编码为数值，再交由表格学习器处理）与端到端架构（直接对混合类型数据进行建模）的性能差异。通过这一基准，学者们得以探究在何种条件下，简单的词频-逆文档频率或轻量级语言模型编码器搭配先进的表格学习器，能够超越复杂的端到端模型，从而为实践者指明高效且有效的技术路径。

解决学术问题

STRABLE数据集直面表格学习领域中一个被严重忽视的学术挑战：如何正确处理和利用表格中的字符串信息。在此之前，主流基准测试大多专注于纯数值或低基数的类别型特征，通过丢弃或扁平化处理排除了富含语义的字符串数据，导致对相关问题的系统性研究极为匮乏。STRABLE的提出，系统性地解决了以下关键问题：它首次提供了足够规模且多样化的真实世界表格库，使得学者能够通过大样本实验，量化字符串特征对预测性能的贡献，并揭示不同字符串编码策略（如传统统计编码与大规模语言模型嵌入）与下游学习器的交互规律。其意义在于，该研究证明了字符串与数值特征具有互补性，且轻量级编码器在多数场景下已足够优秀，为未来设计更高效的混合架构提供了理论依据和实验证据。

实际应用

在广泛的工业应用中，真实世界的表格数据几乎不可避免地混杂着各种字符串列，例如产品名称、地理标识、病历摘要或金融代码。STRABLE数据集的构建深刻反映了这一现实，使其在多个领域具有直接的实际应用价值。例如，在电子商务平台，模型可借助该基准测试的方法，从商品标题和描述中提取信号，以更精准地预测销量或定价；在医疗健康领域，利用临床试验描述和药物名称中的语义信息，能有效提升疾病风险预测模型的准确率。此外，对于金融风控和公共政策分析，处理诸如机构名称、地理编码等结构化字符串的能力至关重要。STRABLE提供的评估框架和高效流水线方案，为产业界在构建实际生产系统时选择合适的字符串处理技术——是采用快速低成本的编码方案还是调用昂贵的大模型——提供了清晰的决策指南。

数据集最近研究