five

mostlyaiprize

收藏
Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/mostlyai/mostlyaiprize
下载链接
链接失效反馈
官方服务:
资源简介:
MOSTLY AI Prize数据集,包含两个CSV文件:FLAT DATA和SEQUENTIAL DATA。FLAT DATA有100,000条记录,80列数据(60列数值型,20列分类型)。SEQUENTIAL DATA有20,000个组,每组5-10条记录,共11列数据(7列数值型,3列分类型加上一个组ID)。数据集用于MOSTLY AI Prize比赛,要求参赛者生成保持原始数据统计特性的合成数据。
创建时间:
2025-05-15
原始信息汇总

MOSTLY AI Prize 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 类型: 表格型数据、合成数据
  • 查看器支持: 是

数据集配置

  • flat配置:
    • 数据文件路径: data/flat/train/*.csv
    • 分割: train
  • sequential配置:
    • 数据文件路径: data/sequential/train/*.csv
    • 分割: train

数据集描述

Flat Data

  • 文件: data/flat/train/flat-training.csv
  • 大小: 26MB
  • MD5: d5642dd9b13da0dc1fbac6f92f8e4b20
  • 记录数: 100,000
  • 列数: 80 (60数值型, 20类别型)

Sequential Data

  • 文件: data/sequential/train/sequential-training.csv
  • 大小: 6.6MB
  • MD5: dd024fe8130cb36ad9374e23ccbffc4a
  • 组数: 20,000
  • 每组记录数: 5-10
  • 列数: 11 (7数值型, 3类别型 + 1组ID)

数据加载方式

使用pandas

python import pandas as pd flat_df = pd.read_csv(data/flat/train/flat-training.csv) sequential_df = pd.read_csv(data/sequential/train/sequential-training.csv)

使用Hugging Face datasets

python from datasets import load_dataset flat_dataset = load_dataset("mostlyai/mostlyaiprize", "flat", split="train") sequential_dataset = load_dataset("mostlyai/mostlyaiprize", "sequential", split="train")

数据集模式

  • 可通过dtypesfeatures查看列类型
  • 详细列描述未提供(竞赛要求)

注意事项

  • 评估使用隐藏的保留集(与训练集同规模、同源、不重叠)
  • 提交需在标准机器上6小时内完成
  • 必须完全开源且可复现

引用

@dataset{mostlyaiprize, author = {MOSTLY AI}, title = {MOSTLY AI Prize Dataset}, year = {2025}, url = {https://www.mostlyaiprize.com/}, }

竞赛信息

  • 奖金: 100,000美元
  • 时间: 2025年5月14日-7月3日(50天)
  • 挑战类型:
    1. FLAT DATA Challenge
    2. SEQUENTIAL DATA Challenge
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集作为MOSTLY AI Prize竞赛的核心资源,采用结构化设计理念构建,包含平面数据和序列数据两种独立形态。平面数据部分由10万条记录构成,涵盖60个数值型和20个类别型字段;序列数据则包含2万个数据组,每组含5-10条具有时序关联的记录,涉及7个数值型和3个类别型特征。数据生成过程严格遵循竞赛要求的统计模式保持原则,同时确保与未公开的保留数据集保持合理距离。
使用方法
使用者可通过两种技术路径调用数据集:基于pandas库的直接读取方式适合传统数据分析流程,而通过Hugging Face的datasets模块加载则便于与深度学习框架集成。数据加载后可通过.dtypes或.features属性获取完整模式信息。值得注意的是,该数据集要求使用者开发具有泛化能力的生成模型,其输出需在6小时内完成计算,且必须通过SDQA工具包的质量验证,与隐藏保留集的相似度不得显著高于训练集。
背景与挑战
背景概述
MOSTLY AI Prize数据集由MOSTLY AI公司于2025年推出,旨在推动表格型合成数据生成技术的前沿研究。该数据集作为同名竞赛的核心资源,包含平面数据(Flat Data)和序列数据(Sequential Data)两种模态,分别涉及10万条独立记录和2万组时序记录。其设计初衷在于解决合成数据领域的关键科学问题——如何通过生成模型在保留原始数据统计特性的同时,确保合成结果既不过度拟合公开样本,又能泛化至未公开的保留集。这一挑战直接呼应了医疗、金融等领域对隐私保护型数据共享的迫切需求,为差分隐私、联邦学习等技术的基准测试提供了标准化评估框架。
当前挑战
该数据集面临的双重挑战体现在技术实现与评估维度。在领域问题层面,参赛者需攻克生成模型对高维异构表格数据的建模难题,包括60个数值型与20个类别型特征的复杂关联关系捕捉,以及时序数据中组内5-10条记录的动态模式保持。构建过程中的挑战则集中于竞赛设计的公平性保障:如何通过隐藏保留集(holdout set)的机制设计,防止模型对训练集的过拟合;同时严格限制6小时内完成生成的算力约束,倒逼算法效率优化。这些挑战直击合成数据领域可复现性、泛化性与实用性的核心痛点。
常用场景
经典使用场景
在合成数据生成领域,mostlyaiprize数据集作为MOSTLY AI Prize竞赛的核心资源,为研究者提供了评估生成模型性能的标准化测试平台。该数据集包含平面数据和序列数据两种结构,分别对应不同场景下的数据生成挑战,成为验证表格数据合成算法泛化能力的基准工具。
解决学术问题
该数据集有效解决了合成数据质量评估中的关键科学问题,包括统计特性保持、隐私保护与实用性平衡等核心挑战。通过隐藏的保留集评估机制,推动了生成模型在未知数据分布上的泛化性能研究,为量化合成数据与真实数据间的差异提供了方法论基础。
实际应用
在金融风控和医疗数据分析等敏感领域,mostlyaiprize数据集支持开发既保护隐私又保持统计效用的合成数据解决方案。其序列数据模块特别适用于客户行为建模等时序场景,为行业提供了符合合规要求的替代数据生成范式。
数据集最近研究
最新研究方向
在合成数据生成领域,mostlyaiprize数据集为研究者提供了一个重要的基准平台,推动了表格数据和序列数据生成技术的前沿探索。当前研究聚焦于如何利用生成模型如GANs、VAEs以及扩散模型,在保持数据统计特性的同时确保生成的合成数据既不过拟合于训练集,又能泛化到隐藏的测试集。这一方向与隐私保护、数据共享等热点议题紧密相连,尤其在金融、医疗等敏感领域,高质量的合成数据能够在不泄露原始信息的前提下支持模型开发。MOSTLY AI Prize竞赛的设立进一步加速了开源工具链的整合与创新,为合成数据质量的标准化评估提供了实践框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作