PoTeC
收藏PoTeC - Potsdam Textbook Corpus
数据集概述
PoTeC(Potsdam Textbook Corpus)是一个自然阅读眼动追踪语料库。该数据集包含四组参与者(物理学和生物学的专家/初学者水平学生)阅读12篇来自物理学和生物学教科书的短文时的眼动数据。最终数据集包含75名参与者阅读所有12篇文本的数据。
实验设计
研究采用2x2x2完全交叉因子设计:
- 因子1:参与者学习学科(物理学或生物学)
- 因子2:参与者学习水平(初学者或专家)
- 因子3:文本领域(物理学或生物学)
| 物理学 | 生物学 | |
|---|---|---|
| 初学者 | 12 | 16 |
| 专家 | 20 | 27 |
数据内容
数据集包含以下内容:
- 眼动数据
- 原始眼动数据
- 预处理后的眼动数据
- 刺激材料
- 刺激文本
- 文本和背景问题
- 匿名参与者数据
- 脚本(Python)
- 数据预处理脚本
- 进一步处理数据的附加脚本
技术设置
实验使用以下技术设置:
- 眼动追踪设备:Eyelink 1000,桌面安装的摄像头系统,35毫米镜头
- 采样率:1000 Hz
- 显示器尺寸:47.5x30 cm,22英寸
- 显示器分辨率:1680x1050像素
- 眼睛到屏幕的距离:61 cm
- 眼睛到摄像头的距离:65 cm
- 实验软件:SR Research提供的Experiment Builder软件
刺激呈现
- 背景颜色:黑色
- 字体颜色:白色
- 字体大小:18
- 字体:Courier
- 刺激大小:平均每页显示158个单词,多行显示
- 每视觉角度字符数(屏幕中间):2.8个字符每度视觉角度
数据下载
数据文件存储在OSF仓库。可以使用以下脚本自动下载和提取数据文件:
bash python download_data_files.py
或直接提取文件
python download_data_files.py --extract
pymovements集成
PoTeC已集成到pymovements包中,允许轻松下载原始数据并进一步处理。以下代码片段展示如何下载数据:
python import pymovements as pm
dataset = pm.Dataset(PoTeC, path=data/PoTeC) dataset.download()
数据文件读取注意事项
德语文本p3包含单词"null",如果使用pandas读取单词特征,单词"null"会被解释为NA值。为避免此行为,可以使用以下命令:
python
import pandas as pd
pd.read_csv(word_features_p3.tsv, sep= ,
keep_default_na=False,
na_values=[#N/A, #N/A N/A, #NA, -1.#IND, -1.#QNAN, -NaN, -nan,
1.#IND, 1.#QNAN, <NA>, N/A, NA, NaN, None, n/a,
nan, ]
)
数据概览
数据在不同阶段可用,存储在相应子文件夹中,每个文件夹包含一个README文件,提供有关数据及其使用方法的更多信息。详细描述请参考CODEBOOK。
引用
@misc{potec, url={url{https://github.com/DiLi-Lab/PoTeC}}, author={Jakobi, Deborah N. and Kern, Thomas and Reich, David R. and Haller, Patrick and Jäger, Lena A.}, title={{PoTeC}: A {German} Naturalistic Eye-tracking-while-reading Corpus}, year={2024}, note={under review} }

- 1PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus · 2024年



