Psych-101|心理学数据集|认知模型数据集
收藏Psych-101 数据集概述
数据集摘要
Psych-101 是一个自然语言转录数据集,来源于人类心理学实验。该数据集包含160个心理学实验的逐次数据,涉及60,092名参与者,共计10,681,650次选择。人类选择以“<<”和“>>”标记。
示例提示
你将看到三组对象,分别标记为D、P和H。 在每次试验中,请通过按下相应的键来指出你认为最不相似的对象。 换句话说,请选择与其他两个对象最不相似的那个。
D: 馅饼皮, P: 游戏, H: 手镯。你按下 <<D>>。 D: 音叉, P: 火箭, H: 华夫饼机。你按下 <<P>>。 D: 粗粒, P: 组合锁, H: 手提箱。你按下 <<D>>。 D: 巨石, P: 里程表, H: 萨拉米香肠。你按下 <<P>>。 D: 勺子, P: 尿布, H: 卫星天线。你按下 <<P>>。 [...]
语言
英语。
使用方法
python from datasets import load_dataset data = load_dataset(marcelbinz/Psych-101)
数据字段
json { "text": 实验的自然语言转录, "experiment": 实验标识符, "participant": 参与者标识符 }
许可信息
Apache License 2.0
引用信息
bibtex @misc{binz2024centaurfoundationmodelhuman, title={Centaur: a foundation model of human cognition}, author={Marcel Binz and Elif Akata and Matthias Bethge and Franziska Brändle and Fred Callaway and Julian Coda-Forno and Peter Dayan and Can Demircan and Maria K. Eckstein and Noémi Éltető and Thomas L. Griffiths and Susanne Haridi and Akshay K. Jagadish and Li Ji-An and Alexander Kipnis and Sreejan Kumar and Tobias Ludwig and Marvin Mathony and Marcelo Mattar and Alireza Modirshanechi and Surabhi S. Nath and Joshua C. Peterson and Milena Rmus and Evan M. Russek and Tankred Saanum and Natalia Scharfenberg and Johannes A. Schubert and Luca M. Schulze Buschoff and Nishad Singhi and Xin Sui and Mirko Thalmann and Fabian Theis and Vuong Truong and Vishaal Udandarao and Konstantinos Voudouris and Robert Wilson and Kristin Witte and Shuchen Wu and Dirk Wulff and Huadong Xiong and Eric Schulz}, year={2024}, eprint={2410.20268}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.20268}, }

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录