mostlyaiprize

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/mostlyai/mostlyaiprize

下载链接

链接失效反馈

官方服务：

资源简介：

MOSTLY AI Prize数据集，包含两个CSV文件：FLAT DATA和SEQUENTIAL DATA。FLAT DATA有100,000条记录，80列数据（60列数值型，20列分类型）。SEQUENTIAL DATA有20,000个组，每组5-10条记录，共11列数据（7列数值型，3列分类型加上一个组ID）。数据集用于MOSTLY AI Prize比赛，要求参赛者生成保持原始数据统计特性的合成数据。

创建时间：

2025-05-15

原始信息汇总

MOSTLY AI Prize 数据集概述

数据集基本信息

许可证: Apache 2.0
类型: 表格型数据、合成数据
查看器支持: 是

数据集配置

flat配置:
- 数据文件路径: data/flat/train/*.csv
- 分割: train
sequential配置:
- 数据文件路径: data/sequential/train/*.csv
- 分割: train

数据集描述

Flat Data

文件: data/flat/train/flat-training.csv
大小: 26MB
MD5: d5642dd9b13da0dc1fbac6f92f8e4b20
记录数: 100,000
列数: 80 (60数值型, 20类别型)

Sequential Data

文件: data/sequential/train/sequential-training.csv
大小: 6.6MB
MD5: dd024fe8130cb36ad9374e23ccbffc4a
组数: 20,000
每组记录数: 5-10
列数: 11 (7数值型, 3类别型 + 1组ID)

数据加载方式

使用pandas

python import pandas as pd flat_df = pd.read_csv(data/flat/train/flat-training.csv) sequential_df = pd.read_csv(data/sequential/train/sequential-training.csv)

使用Hugging Face datasets

python from datasets import load_dataset flat_dataset = load_dataset("mostlyai/mostlyaiprize", "flat", split="train") sequential_dataset = load_dataset("mostlyai/mostlyaiprize", "sequential", split="train")

数据集模式

可通过dtypes或features查看列类型
详细列描述未提供(竞赛要求)

注意事项

评估使用隐藏的保留集(与训练集同规模、同源、不重叠)
提交需在标准机器上6小时内完成
必须完全开源且可复现

引用

@dataset{mostlyaiprize, author = {MOSTLY AI}, title = {MOSTLY AI Prize Dataset}, year = {2025}, url = {https://www.mostlyaiprize.com/}, }

竞赛信息

奖金: 100,000美元
时间: 2025年5月14日-7月3日(50天)
挑战类型:
1. FLAT DATA Challenge
2. SEQUENTIAL DATA Challenge

搜集汇总

数据集介绍

构建方式

该数据集作为MOSTLY AI Prize竞赛的核心资源，采用结构化设计理念构建，包含平面数据和序列数据两种独立形态。平面数据部分由10万条记录构成，涵盖60个数值型和20个类别型字段；序列数据则包含2万个数据组，每组含5-10条具有时序关联的记录，涉及7个数值型和3个类别型特征。数据生成过程严格遵循竞赛要求的统计模式保持原则，同时确保与未公开的保留数据集保持合理距离。

使用方法

使用者可通过两种技术路径调用数据集：基于pandas库的直接读取方式适合传统数据分析流程，而通过Hugging Face的datasets模块加载则便于与深度学习框架集成。数据加载后可通过.dtypes或.features属性获取完整模式信息。值得注意的是，该数据集要求使用者开发具有泛化能力的生成模型，其输出需在6小时内完成计算，且必须通过SDQA工具包的质量验证，与隐藏保留集的相似度不得显著高于训练集。

背景与挑战

背景概述

MOSTLY AI Prize数据集由MOSTLY AI公司于2025年推出，旨在推动表格型合成数据生成技术的前沿研究。该数据集作为同名竞赛的核心资源，包含平面数据（Flat Data）和序列数据（Sequential Data）两种模态，分别涉及10万条独立记录和2万组时序记录。其设计初衷在于解决合成数据领域的关键科学问题——如何通过生成模型在保留原始数据统计特性的同时，确保合成结果既不过度拟合公开样本，又能泛化至未公开的保留集。这一挑战直接呼应了医疗、金融等领域对隐私保护型数据共享的迫切需求，为差分隐私、联邦学习等技术的基准测试提供了标准化评估框架。

当前挑战

该数据集面临的双重挑战体现在技术实现与评估维度。在领域问题层面，参赛者需攻克生成模型对高维异构表格数据的建模难题，包括60个数值型与20个类别型特征的复杂关联关系捕捉，以及时序数据中组内5-10条记录的动态模式保持。构建过程中的挑战则集中于竞赛设计的公平性保障：如何通过隐藏保留集（holdout set）的机制设计，防止模型对训练集的过拟合；同时严格限制6小时内完成生成的算力约束，倒逼算法效率优化。这些挑战直击合成数据领域可复现性、泛化性与实用性的核心痛点。

常用场景

经典使用场景

在合成数据生成领域，mostlyaiprize数据集作为MOSTLY AI Prize竞赛的核心资源，为研究者提供了评估生成模型性能的标准化测试平台。该数据集包含平面数据和序列数据两种结构，分别对应不同场景下的数据生成挑战，成为验证表格数据合成算法泛化能力的基准工具。

解决学术问题

该数据集有效解决了合成数据质量评估中的关键科学问题，包括统计特性保持、隐私保护与实用性平衡等核心挑战。通过隐藏的保留集评估机制，推动了生成模型在未知数据分布上的泛化性能研究，为量化合成数据与真实数据间的差异提供了方法论基础。

实际应用

在金融风控和医疗数据分析等敏感领域，mostlyaiprize数据集支持开发既保护隐私又保持统计效用的合成数据解决方案。其序列数据模块特别适用于客户行为建模等时序场景，为行业提供了符合合规要求的替代数据生成范式。

数据集最近研究