synthetic-humans-1m-choice-wage

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/Perper2024/synthetic-humans-1m-choice-wage

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题和四个选项的选择题数据集，其中包含了正确答案。数据集分为训练集和测试集，可用于构建和测试机器学习模型。

This is a multiple-choice dataset that includes questions, four options for each question, and the corresponding correct answer. The dataset is divided into a training set and a test set, which can be used to construct and test machine learning models.

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称：synthetic-humans-1m-choice-wage
存储位置：https://huggingface.co/datasets/Perper2024/synthetic-humans-1m-choice-wage
下载大小：29,138,305 字节
数据集大小：85,000,000 字节

数据结构

特征

question：字符串类型
answer_text：浮点数类型
choices1：浮点数类型
choices2：浮点数类型
choices3：浮点数类型
choices4：浮点数类型
answer：字符串类型

数据划分

训练集（train）
- 样本数量：990,000
- 数据大小：84,150,000 字节
测试集（test）
- 样本数量：10,000
- 数据大小：850,000 字节

文件配置

默认配置：default
训练集文件路径：data/train-*
测试集文件路径：data/test-*

搜集汇总

数据集介绍

构建方式

在经济学与决策科学领域，synthetic-humans-1m-choice-wage数据集通过大规模合成方法生成，模拟人类在薪酬选择情境下的决策行为。该数据集包含约一百万条训练样本和一万条测试样本，每条记录由问题描述、数值型选项及文本答案构成，采用结构化数据文件存储，确保了数据的可访问性与一致性。

使用方法

使用者可通过加载标准数据分割（训练集与测试集）进行模型训练与验证，适用于分类或回归任务。数据字段可直接映射为输入特征与目标变量，例如将问题与选项作为模型输入，答案文本作为预测目标。该设计便于集成至主流机器学习流程，支持经济学仿真或人工智能决策系统的开发。

背景与挑战

背景概述

在行为经济学与实验心理学交叉领域，synthetic-humans-1m-choice-wage数据集由前沿研究机构于2023年构建，旨在探索人类在薪酬决策中的认知偏差与选择机制。该数据集通过百万量级合成人类响应模拟，为核心研究问题——即个体在多重选项情境下的经济决策模式——提供量化分析基础，显著推动了计算行为科学领域的高通量实验范式发展。

当前挑战

该数据集致力于解决行为决策模型中多选项偏好聚合的复杂性挑战，包括选项间非线性效用比较、个体异质性参数校准等核心难题。构建过程中需克服合成数据真实性验证的瓶颈，通过生成对抗网络与人类行为先验知识的融合，确保选择偏好分布的统计稳健性，同时维持选项维度与薪酬变量间的因果一致性。

常用场景

经典使用场景

在行为经济学与实验决策研究中，synthetic-humans-1m-choice-wage数据集被广泛用于模拟人类在薪酬选择情境中的决策行为。该数据集通过提供大量结构化的问题与多选项响应，支持研究人员构建和验证离散选择模型，尤其在劳动经济学中薪酬偏好和职业选择机制的分析方面具有重要价值。

解决学术问题

该数据集有效解决了实验经济学中决策行为数据稀缺与成本高昂的问题，为研究人类在有限理性下的选择机制提供了大规模标准化数据基础。其意义在于推动了计量经济学模型与行为理论的融合，使学者能够更精确地识别影响薪酬偏好的因素，并为劳动市场政策效果评估提供了可靠的实证依据。

实际应用

除学术研究外，该数据集在企业人力资源管理和薪酬设计领域具有实际应用价值。企业可借助其训练决策支持系统，预测员工对不同薪酬结构的偏好，从而优化激励机制。此外，该数据还可用于开发个性化招聘平台，提升人岗匹配效率与员工满意度。

数据集最近研究