STRABLE
收藏STRABLE Benchmark 数据集概述
基本信息
- 数据集名称:STRABLE Benchmark
- 许可证:CC-BY-4.0
- 语言:英语
- 数据集规模:100,000 < 样本数 < 1,000,000
- 数据集大小:108 个独立表格
数据集简介
STRABLE 是一个专门用于评估机器学习模型在包含字符串的表格数据上性能的综合性基准测试套件。该数据集包含 108 个同时包含字符串和数值的表格,涵盖多个应用领域,旨在支持对表格数据中字符串处理的实证研究。
数据来源
- 仓库地址:https://github.com/soda-inria/strable
- 论文地址:https://arxiv.org/pdf/2605.12292
- 项目主页:https://soda-inria.github.io/strable
用途
直接用途
该数据集面向评估表格机器学习流程的研究人员和从业者,可用于回答关于表格中字符串表示的关键研究问题:是否需要专用的端到端学习器,或者模块化架构(将字符串编码器与表格学习器结合)是否足够。数据集涵盖二分类、多分类和回归任务。
超出范围的使用
该数据集由“自然场景中”的包含字符串条目的表格组成,而非长篇自由文本或文档级别数据。数据提取代表静态横截面快照,不适合评估时间序列或时间动态。
数据集结构
整个语料库包含 108 个独立的表格,每个表格作为一个独立的数据集配置组织在文件夹中。每个数据集文件夹包含以下文件:
- config.json:配置文件,包含目标变量名称等信息
- data.parquet:数据文件(Parquet 格式)
数据集创建
数据来源
数据来自 33 个不同来源,涵盖 8 个应用领域:
- 商业
- 经济
- 教育
- 能源
- 食品
- 健康
- 基础设施
- 社会
数据收集与处理
采用最小预处理以保持数据的真实异构性:
- 展平嵌套结构并删除重复行
- 删除单值列、全空列和缺少标签的行
- 移除作为目标变量平凡函数的特征以防止数据泄漏
- 不对缺失值进行填充,保留给编码器-学习器流程处理
- 对大表格进行子采样,最多保留 75,000 行以确保计算可行性
- 对回归任务的目标变量应用偏度最小化协议
引用信息
bibtex @misc{blayer2026strablebenchmarkingtabularmachine, title={STRABLE: Benchmarking Tabular Machine Learning with Strings}, author={Gioia Blayer and Myung Jun Kim and Félix Lefebvre and Lennart Purucker and Alan Arazi and Eilam Shapira and Roi Reichart and Frank Hutter and Marine Le Morvan and David Holzmüller and Gaël Varoquaux}, year={2026}, eprint={2605.12292}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2605.12292}, }

- 1STRABLE: Benchmarking Tabular Machine Learning with Strings法国国家信息与自动化研究所·SODA团队; 弗莱堡大学; Prior Labs; 图宾根ELLIS研究所; 以色列理工学院 · 2026年



