fMRI dataset on program comprehension and expertise

github2020-05-23 更新2024-05-31 收录

下载链接：

https://github.com/OpenNeuroDatasets/ds002411

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含29名受试者的fMRI数据，用于研究程序理解和专业知识。数据集记录了受试者在分类源代码片段时的fMRI数据，涵盖了整个大脑的功能扫描，并包括了每位受试者的解剖和功能MRI数据。

This dataset comprises fMRI data from 29 subjects, aimed at investigating program comprehension and expertise. It captures fMRI data while subjects categorize source code snippets, encompassing whole-brain functional scans, and includes both anatomical and functional MRI data for each participant.

创建时间：

2020-01-29

原始信息汇总

fMRI dataset on program comprehension and expertise

数据集概述

本数据集记录了在受试者对源代码片段进行分类时的fMRI数据。实验包括六个单独的运行，共72个Java代码片段，每个片段被展示三次。每个试验中，Java代码片段在两秒的固定十字显示后展示十秒，随后受试者需在四秒内通过按键将代码片段分类到四个类别之一。数据集招募了顶级、中级程序员及新手控制组，以覆盖广泛的编程专长。fMRI数据用于训练和评估模型，以预测所见Java代码片段的功能类别或子类别。

数据集内容

MRI文件

数据集包含29名受试者的fMRI数据，每位受试者的数据包括解剖和功能MRI数据。功能扫描在六个扫描运行中收集。功能EPI扫描覆盖整个大脑，T1加权解剖参考图像为每位受试者提供。

受试者信息

受试者信息文件(participants.tsv)记录了每位受试者的背景信息，如年龄、性别、用手习惯等。相关解释可在./participants.json中找到。

任务事件文件

任务事件文件(sub-_func_task-ProgramCategorization_run-_events.tsv)记录了fMRI运行期间的事件，如刺激代码、受试者响应等。相关解释可在./task-ProgramCategorization_events.json中找到。

实验刺激的Java代码片段

Java代码片段存储在刺激目录(./stimuli)中，这些片段来自AIZU ONLINE JUDGE的开放代码集，并由作者预处理以标准化缩进风格和用户定义函数的名称。任务事件文件中的stim_file列指示了实验中每个试验使用的Java代码片段。

搜集汇总

数据集介绍

构建方式

该数据集通过功能性磁共振成像（fMRI）技术，记录了29名受试者在分类Java代码片段时的脑部活动。实验设计包括六个独立的扫描运行，每个运行包含36个试验和一个虚拟试验，总共展示了72个Java代码片段，每个片段呈现三次。受试者在每次试验中，首先观看一个固定十字两秒，随后展示一个Java代码片段十秒，并在四秒内通过按键将其分类到四个功能类别之一。受试者包括顶级、中级和初级程序员，以覆盖广泛的编程专业知识。

特点

该数据集的特点在于其详细记录了受试者在进行程序理解任务时的脑部活动，包括功能性和解剖性MRI数据。功能性扫描覆盖全脑，具有高空间分辨率，而解剖性参考图像则提供了每个受试者的详细脑部结构信息。此外，数据集还包含了受试者的背景信息和任务事件文件，详细记录了每次试验中的刺激代码和受试者反应。Java代码片段作为实验刺激，来源于公开的代码集，并经过预处理以确保一致性。

使用方法

该数据集的使用方法包括下载和解压MRI文件，使用提供的预处理和分析代码对数据进行处理。研究人员可以利用这些数据训练和评估模型，以预测受试者在看到Java代码片段时的功能类别或子类别。通过搜索光解码精度，可以识别出对专家程序员在程序理解任务中表现出色的脑区。数据集的使用需要一定的神经影像学和编程知识，以便正确解读和应用数据。

背景与挑战

背景概述

该数据集由Ikutani等人于2020年创建，旨在通过功能性磁共振成像（fMRI）技术研究程序员在理解源代码时的脑部活动。研究团队包括来自日本奈良先端科学技术大学院大学的研究人员，他们通过实验记录了29名不同编程经验水平的被试者在分类Java代码片段时的脑部活动数据。该数据集的核心研究问题在于探索专家程序员与新手在源代码理解过程中大脑皮层的表征差异，并试图揭示专家程序员在程序理解任务中表现卓越的神经机制。这一研究为认知神经科学和计算机科学领域的交叉研究提供了重要的数据支持，推动了编程认知神经科学的发展。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，如何准确解码大脑活动以预测程序员对源代码的功能类别分类是一个复杂的任务，尤其是在不同编程经验水平的被试者之间，脑部活动的差异可能较为细微且难以捕捉。其次，在数据构建过程中，研究团队需要克服技术挑战，如确保fMRI数据的高质量采集与预处理，尤其是在多被试者、多实验轮次的情况下，数据的对齐与标准化处理尤为关键。此外，由于fMRI数据的敏感性，研究团队还需处理数据公开的伦理问题，确保被试者的隐私得到充分保护。

常用场景

经典使用场景

该数据集在神经科学和计算机科学的交叉领域中具有重要应用，特别是在研究程序员在阅读和理解Java代码时的大脑活动模式。通过功能性磁共振成像（fMRI）技术，数据集记录了程序员在分类Java代码片段时的大脑反应，为研究程序理解与大脑认知机制之间的关系提供了宝贵的数据支持。

实际应用

在实际应用中，该数据集可用于开发基于脑机接口的编程辅助工具，帮助初学者通过模拟专家程序员的大脑活动模式来提升编程能力。此外，该数据集还可用于设计更高效的编程培训课程，通过分析不同经验水平程序员的大脑反应，优化教学策略，提升学习效果。

衍生相关工作

基于该数据集的研究成果，衍生了一系列关于程序理解与大脑认知机制的经典工作。例如，研究者利用该数据集开发了基于fMRI数据的解码模型，能够预测程序员在阅读代码时的大脑活动模式。此外，该数据集还被用于研究编程经验对大脑功能的影响，推动了认知神经科学和编程教育领域的交叉研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集