five

Psych-101|心理学数据集|认知模型数据集

收藏
huggingface2024-11-03 更新2024-12-12 收录
心理学
认知模型
下载链接:
https://huggingface.co/datasets/marcelbinz/Psych-101
下载链接
链接失效反馈
资源简介:
Psych-101数据集是一个自然语言转录的心理学实验数据集,包含了160个心理学实验的逐次数据,涉及60,092名参与者,共记录了10,681,650次选择。数据集中的选择信息被封装在“<<”和“>>”标记中。数据集的主要用途是研究人类认知的基础模型。数据集提供了详细的实验文本、实验标识符和参与者标识符。数据集的语言为英语,使用Apache 2.0许可证。
创建时间:
2024-10-23
原始信息汇总

Psych-101 数据集概述

数据集摘要

Psych-101 是一个自然语言转录数据集,来源于人类心理学实验。该数据集包含160个心理学实验的逐次数据,涉及60,092名参与者,共计10,681,650次选择。人类选择以“<<”和“>>”标记。

示例提示

你将看到三组对象,分别标记为D、P和H。 在每次试验中,请通过按下相应的键来指出你认为最不相似的对象。 换句话说,请选择与其他两个对象最不相似的那个。

D: 馅饼皮, P: 游戏, H: 手镯。你按下 <<D>>。 D: 音叉, P: 火箭, H: 华夫饼机。你按下 <<P>>。 D: 粗粒, P: 组合锁, H: 手提箱。你按下 <<D>>。 D: 巨石, P: 里程表, H: 萨拉米香肠。你按下 <<P>>。 D: 勺子, P: 尿布, H: 卫星天线。你按下 <<P>>。 [...]

语言

英语。

使用方法

python from datasets import load_dataset data = load_dataset(marcelbinz/Psych-101)

数据字段

json { "text": 实验的自然语言转录, "experiment": 实验标识符, "participant": 参与者标识符 }

许可信息

Apache License 2.0

引用信息

bibtex @misc{binz2024centaurfoundationmodelhuman, title={Centaur: a foundation model of human cognition}, author={Marcel Binz and Elif Akata and Matthias Bethge and Franziska Brändle and Fred Callaway and Julian Coda-Forno and Peter Dayan and Can Demircan and Maria K. Eckstein and Noémi Éltető and Thomas L. Griffiths and Susanne Haridi and Akshay K. Jagadish and Li Ji-An and Alexander Kipnis and Sreejan Kumar and Tobias Ludwig and Marvin Mathony and Marcelo Mattar and Alireza Modirshanechi and Surabhi S. Nath and Joshua C. Peterson and Milena Rmus and Evan M. Russek and Tankred Saanum and Natalia Scharfenberg and Johannes A. Schubert and Luca M. Schulze Buschoff and Nishad Singhi and Xin Sui and Mirko Thalmann and Fabian Theis and Vuong Truong and Vishaal Udandarao and Konstantinos Voudouris and Robert Wilson and Kristin Witte and Shuchen Wu and Dirk Wulff and Huadong Xiong and Eric Schulz}, year={2024}, eprint={2410.20268}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.20268}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Psych-101数据集构建基于160项心理学实验的自然语言转录数据,涵盖了60,092名参与者的10,681,650次选择。数据通过实验中的逐项记录生成,参与者的选择被封装在特定的标记符号中,确保了数据的完整性和可追溯性。
特点
该数据集的特点在于其广泛覆盖了心理学实验的多样性,提供了丰富的自然语言转录数据。每个实验和参与者的选择均被详细记录,且数据以结构化的形式呈现,便于研究者进行深入分析。此外,数据集中的选择行为通过特定标记符号进行标注,增强了数据的可读性和可解释性。
使用方法
使用Psych-101数据集时,研究者可通过`datasets`库中的`load_dataset`函数直接加载数据。数据集包含三个主要字段:实验的自然语言转录文本、实验标识符以及参与者标识符。通过分析这些字段,研究者可以深入探讨人类认知行为及其背后的心理学机制。
背景与挑战
背景概述
Psych-101数据集由Marcel Binz等研究人员于2024年发布,旨在为心理学实验提供自然语言转录数据。该数据集涵盖了160项心理学实验,涉及60,092名参与者,共计10,681,650次选择。其核心研究问题在于通过大规模实验数据,探索人类认知行为的基本模式,并为构建人类认知的基础模型提供支持。该数据集与《Centaur: a foundation model of human cognition》论文密切相关,为心理学与人工智能的交叉研究提供了重要资源,推动了认知科学领域的发展。
当前挑战
Psych-101数据集在解决心理学实验数据的标准化与大规模分析方面面临显著挑战。首先,心理学实验的多样性与复杂性使得数据标注与整合成为难题,需要确保实验设计的统一性与数据的可解释性。其次,自然语言转录的准确性要求极高,需避免语义偏差与信息丢失。此外,数据集的构建过程中,如何平衡参与者隐私保护与数据开放共享也是一个关键问题。这些挑战不仅影响了数据集的可用性,也对后续研究提出了更高的技术要求。
常用场景
经典使用场景
在心理学研究中,Psych-101数据集被广泛应用于分析人类决策行为。通过包含160项心理学实验的逐次试验数据,研究者能够深入探讨人类在面对复杂选择时的认知机制。该数据集为心理学实验提供了丰富的自然语言转录,使得研究者能够在实验室环境之外,模拟真实世界中的决策场景。
实际应用
在实际应用中,Psych-101数据集被用于开发智能系统,以模拟人类的决策过程。例如,在人工智能领域,该数据集可用于训练模型,使其能够更好地理解和预测人类行为。此外,该数据集还可用于教育领域,帮助学生和研究者通过分析实验数据,深入理解心理学中的决策理论。
衍生相关工作
基于Psych-101数据集,研究者们开展了多项经典工作。例如,Marcel Binz等人提出的Centaur模型,利用该数据集构建了一个人类认知的基础模型。该模型不仅在心理学领域产生了广泛影响,还为人工智能的发展提供了新的思路。此外,该数据集还激发了多项关于人类决策行为的研究,推动了认知科学和人工智能的交叉融合。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录