five

dongyu0205/working-memory-capacity-of-ChatGPT

收藏
Hugging Face2024-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dongyu0205/working-memory-capacity-of-ChatGPT
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于测试语言模型的工作记忆容量,基于N-back任务。N-back任务在认知科学中广泛用于测量工作记忆容量。数据集包含30个试验块,每个块包含30个试验,其中10个匹配试验和20个非匹配试验。数据集以文本文件形式存储,每行包含试验中呈现的字母及其对应的条件(m表示匹配试验,-表示非匹配试验)。数据集包括多种版本的N-back任务,如口头和空间任务。

该数据集用于测试语言模型的工作记忆容量,基于N-back任务。N-back任务在认知科学中广泛用于测量工作记忆容量。数据集包含30个试验块,每个块包含30个试验,其中10个匹配试验和20个非匹配试验。数据集以文本文件形式存储,每行包含试验中呈现的字母及其对应的条件(m表示匹配试验,-表示非匹配试验)。数据集包括多种版本的N-back任务,如口头和空间任务。
提供机构:
dongyu0205
原始信息汇总

数据集概述

数据集名称

  • Using N-back Tasks to Assess Working Memory Capacity of Large Language Models (LLMs)

数据集来源

  • 该数据集是为论文《Working Memory Capacity of ChatGPT: An Empirical Study》创建的,该论文已被AAAI 2024 Conference on Artificial Intelligence接受。

数据集内容

  • 数据集包含30个N-back任务的试验块,针对$N = {1, 2, 3}$分别设计。
  • 每个试验块包含30个试验,其中10个匹配试验和20个非匹配试验。
  • 每个试验块的数据存储在文本文件中,文件的第一行是每个试验中呈现的字母,第二行是对应的条件(m:匹配试验;-:非匹配试验)。

数据集版本

  • 包括口头和空间两种版本的N-back任务。

数据集使用示例

  • 针对$N = {1, 2, 3}$的口头N-back任务,使用特定的提示格式进行测试。

评估指标

  • 使用精确匹配结果计算命中率、误报率和准确性。
  • 使用$d$(检测敏感度)作为评估指标,计算方式为命中率的$z$分数减去误报率的$z$分数。

数据集使用方法

  • 可通过运行experiments文件夹中的任何jupyter笔记本来使用此数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作