inria-soda/carte-benchmark

Name: inria-soda/carte-benchmark
Creator: inria-soda
Published: 2025-07-30 22:26:27
License: 暂无描述

Hugging Face2025-07-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/inria-soda/carte-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CARTE数据集是用于CARTE论文中的表格数据基准，包含多个子数据集，涉及不同领域的预测任务。这些子数据集包括Anime Planet（预测动漫的平均评分）、Babies R Us（预测婴儿产品的价格）、Beer Ratings（预测啤酒的总体评分）等。每个子数据集都有特定的预测任务，涵盖了从动漫、婴儿产品、啤酒到汽车、电影、葡萄酒等多个领域。

提供机构：

inria-soda

原始信息汇总

数据集概述

数据集用途

用于CARTE论文的表格数据基准。

数据集特点

包含高基数字符串的表格数据。

许可证

未知。

搜集汇总

数据集介绍

构建方式

在表格学习领域，CARTE基准数据集通过整合多个公开来源的表格数据构建而成，涵盖了动漫、商品、影视、学术期刊等多元领域。其构建过程遵循严格的学术规范，从Kaggle、OpenML等知名数据平台系统性地收集原始表格，并统一处理为结构化格式。每个子数据集均经过清洗与标注，确保数据的一致性与可用性，最终形成一个包含超过40个独立表格任务的综合性基准，为表格预训练研究提供了丰富的实验素材。

特点

该数据集的核心特征在于其表格数据普遍包含高基数字符串特征，这模拟了现实世界中表格数据的复杂性，对传统数值型表格学习方法构成显著挑战。数据集覆盖领域广泛，从商业价格预测到学术影响力评估，任务类型均围绕回归预测展开，体现了实际应用场景的多样性。这种设计不仅考验模型对异构特征的融合能力，也促进了表格学习向更通用、更稳健的方向发展。

使用方法

研究人员可利用该数据集评估表格预训练模型的泛化性能与迁移能力。典型使用流程包括：首先加载特定子数据集，将其中的高基数字符串特征转换为图结构表示；随后基于CARTE论文提出的星图变换方法，在预训练模型上进行微调，以完成评分、价格等连续值的预测任务。该基准支持跨领域与跨任务的系统性实验，有助于深入探究表格表征学习的机理与边界。

背景与挑战

背景概述

在深度学习领域，图像与文本数据的预训练模型已取得显著进展，然而表格数据的预训练研究相对滞后，尤其面临高基数字符串特征的建模难题。为此，法国国家信息与自动化研究所（Inria）的研究团队于2024年提出了CARTE基准数据集，其核心研究问题在于探索如何将图神经网络与表格数据相结合，通过将表格行视为星图并训练图变换器，以提升表格学习的泛化能力与表征效率。该数据集的构建标志着表格学习向预训练范式迈出了关键一步，为后续研究提供了重要的评估基础。

当前挑战

CARTE数据集旨在解决表格数据中的回归与分类预测任务，其核心挑战在于处理高基数字符串特征，这类特征通常包含丰富的语义信息但难以直接编码，传统方法易导致维度爆炸或信息损失。在构建过程中，研究人员需整合来自多个公开来源的异构表格，如商品价格、影视评分与员工薪酬等，确保数据质量与一致性面临严峻考验，包括字段对齐、缺失值处理以及任务定义的标准化，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在表格学习领域，CARTE基准数据集为评估图神经网络在结构化数据上的预训练与迁移能力提供了标准化测试平台。该数据集整合了涵盖动漫评分、商品定价、薪资预测等多元领域的真实表格，其核心特征在于包含高基数字符串列，这模拟了实际应用中常见的非数值型属性。研究者通常利用该数据集验证模型如何将表格行转化为星图表示，进而通过图Transformer捕捉行内特征间的复杂依赖关系，以提升回归任务的预测精度。

实际应用

在实际商业与科研场景中，CARTE数据集支撑的模型可应用于多领域价值预测系统。例如在电子商务平台，基于商品描述文本与属性预测价格区间；在人力资源领域，依据职位描述与公司信息估算薪资范围；在内容推荐场景，通过作品元数据预估用户评分。这些应用共同依赖于对混杂字符串与数值特征的联合理解，而CARTE提供的多领域训练数据恰好模拟了现实业务中异构表格的复杂分布。

衍生相关工作

围绕该数据集衍生的经典工作首推同名研究《CARTE: Pretraining and Transfer for Tabular Learning》，该论文提出了基于星图表示的表格预训练框架。后续研究可能沿三个方向拓展：一是改进图神经网络对表格拓扑的建模方式，如引入超图结构；二是探索与其他模态预训练模型的协同，例如结合文本编码器处理字符串特征；三是开发针对特定垂直领域（如医疗表格或金融报表）的迁移学习策略，这些工作都将以CARTE基准作为核心评估依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集