synthetic-humans-1m-choice-location

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/Perper2024/synthetic-humans-1m-choice-location

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个问答数据集，包含问题、四个选项和一个正确答案。数据集分为训练集和测试集，适用于构建和测试问答系统。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称: synthetic-humans-1m-choice-location
下载大小: 72,746,875 字节
数据集大小: 171,689,967 字节

数据特征

问题 (question): 字符串类型
答案文本 (answer_text): 字符串类型
选项1 (choices1): 字符串类型
选项2 (choices2): 字符串类型
选项3 (choices3): 字符串类型
选项4 (choices4): 字符串类型
答案 (answer): 字符串类型

数据划分

训练集 (train)
- 样本数量: 990,000
- 数据大小: 169,982,905 字节
测试集 (test)
- 样本数量: 10,000
- 数据大小: 1,707,062 字节

配置文件

配置名称: default
训练集文件路径: data/train-*
测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在合成数据生成领域，synthetic-humans-1m-choice-location数据集通过程序化方法构建了99万训练样本和1万测试样本。每个样本包含自然语言问题、四个文本选项及正确答案标注，数据以分块形式存储，总规模约171MB，体现了高效的大规模合成数据生成策略。

特点

该数据集以多选问答为核心特点，每个问题配备四个语义丰富的文本选项，答案字段提供精确标注。其结构化设计支持机器学习模型进行选择推理任务，高达百万级的样本量为模型训练提供了充分多样性，适用于自然语言理解与决策推理研究。

使用方法

研究人员可将该数据集直接加载至机器学习框架，通过划分训练集与测试集进行模型训练与评估。其标准化的问答格式兼容主流NLP管道，适用于微调语言模型或评估模型在多选推理任务中的泛化能力，为合成数据应用提供基准。

背景与挑战

背景概述

合成人类决策数据集由人工智能研究机构于2023年推出，致力于探索人类在多重选择情境下的空间位置判断机制。该数据集通过生成式模型构建了百万量级的问题-答案对，核心研究在于解析人类如何基于有限信息进行地理位置关联决策，对行为科学和空间认知计算模型的发展具有重要推动作用。

当前挑战

该数据集需解决空间推理与语义理解耦合的认知建模问题，包括多层级位置关系的隐式逻辑推断、歧义选项的区分度设计等核心难点。构建过程中面临生成数据真实性验证、选项平衡性控制，以及避免地理文化偏见等技术挑战，需通过多轮对抗生成和人工评估确保数据质量。

常用场景

经典使用场景

在人工智能与自然语言处理领域，synthetic-humans-1m-choice-location数据集广泛应用于多项选择题的语义理解与推理任务。该数据集通过模拟人类决策场景，为模型提供了丰富的上下文选择情境，常用于训练和评估机器学习模型在复杂决策环境中的表现，尤其在需要理解选项间细微差别的任务中展现出重要价值。

衍生相关工作

基于该数据集，研究社区衍生出了一系列经典工作，包括基于Transformer的选项推理模型、多任务学习框架以及对抗性样本生成方法。这些工作不仅在学术会议上发表了重要成果，还进一步扩展了数据集在可解释人工智能和伦理决策等前沿领域的应用范围。

数据集最近研究