dongyu0205/working-memory-capacity-of-ChatGPT
收藏Hugging Face2024-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dongyu0205/working-memory-capacity-of-ChatGPT
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于测试语言模型的工作记忆容量,基于N-back任务。N-back任务在认知科学中广泛用于测量工作记忆容量。数据集包含30个试验块,每个块包含30个试验,其中10个匹配试验和20个非匹配试验。数据集以文本文件形式存储,每行包含试验中呈现的字母及其对应的条件(m表示匹配试验,-表示非匹配试验)。数据集包括多种版本的N-back任务,如口头和空间任务。
该数据集用于测试语言模型的工作记忆容量,基于N-back任务。N-back任务在认知科学中广泛用于测量工作记忆容量。数据集包含30个试验块,每个块包含30个试验,其中10个匹配试验和20个非匹配试验。数据集以文本文件形式存储,每行包含试验中呈现的字母及其对应的条件(m表示匹配试验,-表示非匹配试验)。数据集包括多种版本的N-back任务,如口头和空间任务。
提供机构:
dongyu0205
原始信息汇总
数据集概述
数据集名称
- Using N-back Tasks to Assess Working Memory Capacity of Large Language Models (LLMs)
数据集来源
- 该数据集是为论文《Working Memory Capacity of ChatGPT: An Empirical Study》创建的,该论文已被AAAI 2024 Conference on Artificial Intelligence接受。
数据集内容
- 数据集包含30个N-back任务的试验块,针对$N = {1, 2, 3}$分别设计。
- 每个试验块包含30个试验,其中10个匹配试验和20个非匹配试验。
- 每个试验块的数据存储在文本文件中,文件的第一行是每个试验中呈现的字母,第二行是对应的条件(m:匹配试验;-:非匹配试验)。
数据集版本
- 包括口头和空间两种版本的N-back任务。
数据集使用示例
- 针对$N = {1, 2, 3}$的口头N-back任务,使用特定的提示格式进行测试。
评估指标
- 使用精确匹配结果计算命中率、误报率和准确性。
- 使用$d$(检测敏感度)作为评估指标,计算方式为命中率的$z$分数减去误报率的$z$分数。
数据集使用方法
- 可通过运行
experiments文件夹中的任何jupyter笔记本来使用此数据集。



