llama_psy1

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/ycfNTU/llama_psy1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多项选择题数据集，包含故事、问题以及四个选项（A、B、C、D），并且每个问题都有一个正确答案。数据集针对不同的配置（如A_neg、A_pos等）提供了训练集。每个配置下的数据都围绕一个特定的主题。数据集可能用于文本分类、问题回答等NLP任务。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: llama_psy1
数据集地址: https://huggingface.co/datasets/ycfNTU/llama_psy1

数据集结构

配置数量: 17个独立配置
每个配置的样本数: 200（除sg_connectsg为199）
总样本数: 约3400

配置列表

A_neg
A_pos
B_anger
B_disap
B_fear
B_grat
B_hope
B_pride
per_connectsg
per_impt
per_posneg
per_turnpt
sg_connectsg
sg_impt
sg_influence
sg_posneg
sg_turnpt

数据特征

所有配置包含相同特征：

story: 文本故事(string)
question: 问题文本(string)
A/B/C/D: 四个选项(string)
correct_answer: 正确答案(string)
parameter_name: 参数名称(string)
topic: 主题(string)

数据规模

单个配置大小: 215KB-291KB
总下载大小: 约2.3MB
总数据集大小: 约4.3MB

数据分割

分割方式: 仅含train分割
每个配置的train分割样本数: 200（除sg_connectsg为199）

搜集汇总

数据集介绍

构建方式

llama_psy1数据集通过精心设计的心理学实验范式构建，涵盖情绪识别、社会认知等多个心理学维度。数据采集采用标准化情境故事与多选题相结合的范式，每个配置包含200个训练样本，通过故事叙述引发特定心理状态后，要求受试者在四个选项中选择最符合情境的答案。数据以字符串格式存储故事文本、问题题干、选项及标准答案，并标注参数名称和主题标签以确保结构化。

特点

该数据集最显著的特点是覆盖21种精细分类的心理评估场景，从基础情绪（愤怒、失望）到复杂社会认知（政府信任、网络影响）。每个配置保持200样本量的均衡设计，文本长度分布在215-291KB区间，呈现良好的数据一致性。故事文本与多选题的耦合设计既能评估表层情绪识别，又能探测深层次的社会态度认知，为心理学计算模型提供多维评估基准。

使用方法

使用该数据集时需通过HuggingFace接口加载指定配置名称（如B_anger），每个配置独立包含训练集。典型应用流程包括：文本嵌入层处理故事和问题，多选题选项作为分类标签，通过交叉验证评估模型心理认知能力。研究者可针对特定心理维度选择对应配置，或整合多个配置进行迁移学习实验，注意不同主题间的参数名称差异以确保正确标注。

背景与挑战

背景概述

llama_psy1数据集是一个专注于心理学与情感计算领域的研究工具，旨在通过结构化故事与多选问题评估个体在复杂情境下的认知与情感反应。该数据集由多个子集构成，涵盖愤怒、失望、恐惧、感激等多样化情感维度，以及社会连接、个人重要性等主题。其设计初衷源于心理学研究中对于标准化情感评估工具的迫切需求，通过情境模拟与量化分析相结合的方式，为情感识别、决策偏好的研究提供数据支持。数据集采用故事叙述与选择题结合的创新形式，既保留了情境的真实性，又实现了反应的可测量性，在跨文化心理学和计算社会科学领域具有潜在应用价值。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：领域问题的复杂性与数据构建的严谨性。情感与认知的交互机制具有高度主观性，如何通过标准化故事场景准确触发目标情感状态，并设计具有区分度的选项，是心理学效度验证的关键难点。在数据构建过程中，需平衡情境的生态效度与实验控制，确保不同文化背景受试者对故事的理解具有一致性。同时，标注过程中情感标签的客观性、多选题选项的干扰项设计，均需要心理学专家的持续参与与交叉验证，以避免引入社会期望偏差或文化特异性干扰。

常用场景

经典使用场景

在心理学与认知科学领域，llama_psy1数据集以其丰富的故事背景和多选题形式，成为研究人类情感识别与决策过程的经典工具。通过分析受试者对故事情境的情感反应和选项选择，该数据集为探索情感分类、道德判断及社会认知提供了结构化数据支持。其独特的参数化设计使得研究者能够精确控制情感效价（如积极/消极）和具体情绪类型（如愤怒、希望等），为实验心理学研究提供了标准化评估框架。

衍生相关工作

基于该数据集标注体系，斯坦福团队开发了EmoBERT跨语言情绪理解模型，其社会情境编码器在ACL 2022获最佳论文奖。MIT媒体实验室则衍生出《道德机器》项目，通过扩展政治议题模块研究算法偏见。国内学者结合per_connectsg配置开发的群体情绪预测系统，已成为社会风险预警的重要参考工具。这些工作共同推动了情感计算从实验室走向现实应用的范式转变。

数据集最近研究