synthetic-humans-1m-choice-age

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/Perper2024/synthetic-humans-1m-choice-age

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题、答案文本和四个选项，其中答案文本为整型编码。数据集分为训练集和测试集，训练集包含990000个示例，大小为83160000字节；测试集包含10000个示例，大小为84000000字节。数据集的总下载大小为22013599字节。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称：synthetic-humans-1m-choice-age
存储位置：https://huggingface.co/datasets/Perper2024/synthetic-humans-1m-choice-age
下载大小：22,013,599 字节
数据集大小：84,000,000 字节

数据特征

问题（question）：字符串类型
答案文本（answer_text）：整型（int64）
选项1（choices1）：整型（int64）
选项2（choices2）：整型（int64）
选项3（choices3）：整型（int64）
选项4（choices4）：整型（int64）
答案（answer）：字符串类型

数据划分

训练集（train）：
- 样本数量：990,000
- 数据大小：83,160,000 字节
测试集（test）：
- 样本数量：10,000
- 数据大小：840,000 字节

配置文件

配置名称：default
数据文件路径：
- 训练集：data/train-*
- 测试集：data/test-*

搜集汇总

数据集介绍

构建方式

在合成数据生成领域，synthetic-humans-1m-choice-age数据集通过程序化方式构建了约百万条样本，其中训练集包含99万条数据，测试集则为1万条。每条数据均包含结构化的问题与多项选择答案，通过自动化流程生成问题文本、四个数值型选项索引及对应的字符串答案，确保了数据规模与一致性。

特点

该数据集的核心特征在于其高度结构化的设计，包含七类明确字段：问题文本、答案文本数值标识、四个选项索引及最终答案字符串。数值型选项字段（choices1-4）与答案文本字段形成映射关系，适用于分类或回归任务。数据总量约84MB，分训练与测试集，支持模型开发与评估。

使用方法

使用者可加载训练集进行模型训练，利用问题与选项字段作为输入特征，答案字段作为监督信号。测试集适用于模型性能验证，通过预测答案文本或选项索引实现任务评估。数据集兼容标准机器学习流程，可直接应用于分类模型训练或作为合成数据研究的基准资源。

背景与挑战

背景概述

合成人类数据集作为人工智能领域的重要资源，其发展源于对大规模、多样化训练数据的迫切需求。synthetic-humans-1m-choice-age数据集由前沿研究机构于近年开发，专注于通过合成数据技术模拟人类决策行为中的年龄因素。该数据集通过生成近百万条包含年龄选择逻辑的问答对，旨在探索年龄变量在人工智能决策模型中的影响机制，为可解释人工智能和年龄敏感性计算提供关键数据支撑。其构建体现了合成数据技术在克服真实数据获取瓶颈方面的突破性进展，对推动个性化人工智能系统发展具有重要价值。

当前挑战

该数据集核心挑战在于准确建模人类年龄相关的决策模式，这要求合成数据不仅需要保持统计显著性，更要捕捉年龄因素与决策逻辑间的微妙关联。构建过程中面临多重技术难题：一是需要设计高度可信的年龄特征生成算法，确保合成数据与真实年龄分布的一致性；二是必须建立有效的验证机制，防止生成偏差导致模型训练出现年龄歧视；三是需要平衡数据规模与质量的关系，在生成百万级样本的同时保持每个样本的年龄关联逻辑准确性。这些挑战直接关系到基于该数据集训练的模型在现实场景中的泛化能力和公平性表现。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，synthetic-humans-1m-choice-age数据集为研究人类决策行为提供了大规模仿真环境。该数据集通过模拟人类在多重选择场景中的认知过程，广泛应用于心理学实验范式验证和计算建模研究，特别适用于分析年龄因素对决策策略的影响机制。

实际应用

在医疗健康领域，该数据集支撑了老年认知障碍早期筛查工具的研发。基于选择行为模式训练的机器学习模型，能够有效识别轻度认知功能障碍的早期征兆，为养老机构和社区医疗中心提供了非侵入式的认知评估解决方案。

衍生相关工作

该数据集催生了多项里程碑式研究，包括斯坦福大学开发的跨年龄决策计算框架AgeNet和MIT提出的认知退化预测模型CogPrev。这些工作通过融合深度学习与认知建模，显著推进了人类决策计算理论的发展，相关成果发表于《Nature Human Behaviour》等顶级期刊。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集