TextTabBench
收藏arXiv2025-07-10 更新2025-08-15 收录
下载链接:
https://github.com/mrazmartin/TextTabBench
下载链接
链接失效反馈官方服务:
资源简介:
TextTabBench数据集是一个包含13个真实世界表格数据集的集合,这些数据集具有丰富的语义文本特征,旨在用于评估表格数据中的文本嵌入技术。数据集覆盖了多个领域,包括商业、评论、金融和传感器增强数据,并涉及回归和分类任务。数据集的选择遵循五个规则:真实文本特征、双重信号要求、表格预测任务、可访问性和领域与目标多样性。
TextTabBench is a collection of 13 real-world tabular datasets that feature rich semantic textual characteristics, and is designed for evaluating textual embedding techniques on tabular data. These datasets span multiple domains including business, reviews, finance, and sensor-augmented data, and involve both regression and classification tasks. The selection of these datasets adheres to five criteria: genuine textual features, dual signal requirement, tabular prediction tasks, accessibility, and diversity of domains and targets.
提供机构:
弗莱堡大学计算机科学系,弗莱堡,德国;Prior Labs,弗莱堡,德国;图宾根大学ELLIS研究所,德国
创建时间:
2025-07-10
搜集汇总
数据集介绍

构建方式
TextTabBench数据集的构建遵循五项核心准则,以确保其作为基准测试的有效性和代表性。首先,数据集必须包含真实的自由文本特征,而非简单的分类代码。其次,文本和结构化特征均需具备预测性信息,避免任务退化为纯NLP或纯表格测试。第三,数据集需以表格预测任务为主,排除推荐系统或文本检索等任务。第四,数据集需易于获取,避免使用受限数据如医疗记录。最后,数据集需覆盖多样化的领域和目标类型,确保广泛的适用性。通过从OpenML、Kaggle等平台手动筛选,并对数据进行最小化预处理,最终构建了一个包含13个数据集的多样化集合。
特点
TextTabBench数据集的特点在于其平衡的模态结构和丰富的语义信息。数据集中的文本列不仅包含自由文本,还具备高度的语义多样性,如产品描述、临床笔记等。同时,结构化特征(数值和分类列)与文本特征的比例均衡,确保两者均对预测任务有贡献。此外,数据集覆盖了商业、金融、医疗等多个领域,并包含回归和分类任务,提供了全面的评估场景。数据集的透明预处理和详细文档进一步增强了其可重复性和实用性。
使用方法
TextTabBench数据集的使用方法包括三个主要步骤。首先,用户需将文本列通过嵌入技术(如FastText、Skrub的TableVectorizer或AutoGluon的文本编码器)转换为数值向量。其次,根据任务需求选择合适的特征降维技术(如SHAP、PCA或方差选择)以处理高维嵌入。最后,使用表格基础模型(如TabPFNv2或XGBoost)进行训练和评估。数据集支持交叉验证,并提供了详细的预处理脚本和评估指标,确保用户能够轻松复现和扩展实验。
背景与挑战
背景概述
TextTabBench是由Freiburg大学计算机科学系的Martin Mráz、Breenda Das、Anshul Gupta等研究人员于2025年提出的一个面向表格数据与文本混合模态的基础模型评测基准。该数据集旨在解决现有表格数据基准中普遍缺乏语义丰富文本特征的问题,填补了表格学习领域在多模态建模方面的研究空白。其核心研究问题聚焦于如何有效整合结构化表格列与自由文本字段(如工作描述、临床笔记等),以提升基础模型在真实场景下的预测性能。通过手动筛选包含商业、金融、传感器增强数据等多元领域的13个真实数据集,TextTabBench首次系统评估了FastText、Skrub和AutoGluon等文本嵌入策略在表格任务中的表现,推动了表格学习与自然语言处理的交叉研究。
当前挑战
TextTabBench面临双重挑战:在领域问题层面,现有表格模型难以处理语义变异性(如同义词替换)、随机噪声干扰(如无关词汇插入)和语义模糊性(如矛盾情感表达)等文本特性,导致嵌入策略在表格预测任务中的鲁棒性不足。在构建过程中,研究团队遭遇真实数据稀缺性挑战——即使系统检索OpenML和Kaggle平台,仅能获得少量符合要求的候选数据集。此外,基准构建需平衡文本与结构化特征的信息量,避免任务退化为纯NLP或纯表格预测问题。技术层面,不同嵌入方法(如n-gram、句子嵌入和LLM)在语义捕获、噪声抵抗和计算效率上存在显著差异,尚无普适性解决方案,而高维文本嵌入的内存限制进一步加剧了模型优化的复杂度。
常用场景
经典使用场景
TextTabBench数据集在混合模态表格学习领域具有经典的应用场景。该数据集通过整合结构化列与自由文本字段(如产品描述、临床记录等),为研究者提供了一个评估表格基础模型处理多模态数据能力的标准化平台。其典型应用包括比较不同文本嵌入策略(如TF-IDF、FastText、BERT)在表格预测任务中的性能差异,以及验证模型在真实场景下对语义噪声和变体的鲁棒性。
解决学术问题
该数据集解决了当前表格学习领域缺乏高质量多模态基准的核心问题。通过精心筛选包含信息性文本特征的现实数据集(如消费者投诉、房屋价格预测等),它填补了传统表格基准(如OpenML)仅关注数值/分类特征的空白。其贡献体现在三方面:系统揭示了n-gram和通用NLP嵌入在表格任务中的局限性;提供了首个跨领域、平衡文本与结构化特征的基准集;实证分析了不同嵌入管道对TabPFNv2等前沿模型的影响。
衍生相关工作
该数据集直接推动了CARTE基准的优化,并启发了后续如TABLLM、TABLE-LLM等LLM表格处理方法的发展。其构建原则(如双信号要求、原生预测任务等)被Grinsztajn等人在向量化字符串嵌入研究中引用,同时为TabDPT等表格基础模型的多模态扩展提供了评估基础。数据集的公开采集脚本和透明预处理流程也成为了后续研究(如Koloski等人2025年的LLM嵌入研究)的重要参考。
以上内容由遇见数据集搜集并总结生成



