PoTeC

arXiv2024-03-01 更新2024-07-31 收录

下载链接：

https://github.com/DiLi-Lab/PoTeC

下载链接

链接失效反馈

官方服务：

资源简介：

PoTeC是一个包含75名参与者阅读12篇科学文本时的自然眼动追踪数据集。该数据集首次包含了领域专家和新手的眼动数据，并采用2x2x2全交叉因子设计，包括参与者的学习水平、学科领域以及文本领域作为因子。参与者的阅读理解通过一系列文本理解问题评估，领域知识则通过与文本无关的背景问题测试。数据集材料针对不同层次的语言特征进行了标注，旨在用于分析专家和非专家的阅读策略等多种研究。

PoTeC is a natural eye-tracking dataset containing eye movement data from 75 participants while they read 12 scientific texts. This dataset is the first to incorporate eye-tracking data from both domain experts and novices. It adopts a 2×2×2 fully crossed factorial design, with three factors: participants' proficiency level, disciplinary background, and text domain. Participants' reading comprehension was assessed using a set of text comprehension questions, while their domain-specific knowledge was tested via background questions unrelated to the target texts. The materials in this dataset are annotated for different levels of linguistic features, aiming to support various research such as the analysis of reading strategies used by experts and non-experts.

创建时间：

2024-03-01

原始信息汇总

PoTeC - Potsdam Textbook Corpus

数据集概述

PoTeC（Potsdam Textbook Corpus）是一个自然阅读眼动追踪语料库。该数据集包含四组参与者（物理学和生物学的专家/初学者水平学生）阅读12篇来自物理学和生物学教科书的短文时的眼动数据。最终数据集包含75名参与者阅读所有12篇文本的数据。

实验设计

研究采用2x2x2完全交叉因子设计：

因子1：参与者学习学科（物理学或生物学）
因子2：参与者学习水平（初学者或专家）
因子3：文本领域（物理学或生物学）

	物理学	生物学
初学者	12	16
专家	20	27

数据内容

数据集包含以下内容：

眼动数据
- 原始眼动数据
- 预处理后的眼动数据
刺激材料
- 刺激文本
- 文本和背景问题
匿名参与者数据
脚本（Python）
- 数据预处理脚本
- 进一步处理数据的附加脚本

技术设置

实验使用以下技术设置：

眼动追踪设备：Eyelink 1000，桌面安装的摄像头系统，35毫米镜头
采样率：1000 Hz
显示器尺寸：47.5x30 cm，22英寸
显示器分辨率：1680x1050像素
眼睛到屏幕的距离：61 cm
眼睛到摄像头的距离：65 cm
实验软件：SR Research提供的Experiment Builder软件

刺激呈现

背景颜色：黑色
字体颜色：白色
字体大小：18
字体：Courier
刺激大小：平均每页显示158个单词，多行显示
每视觉角度字符数（屏幕中间）：2.8个字符每度视觉角度

数据下载

数据文件存储在OSF仓库。可以使用以下脚本自动下载和提取数据文件：

bash python download_data_files.py

或直接提取文件

python download_data_files.py --extract

`pymovements`集成

PoTeC已集成到pymovements包中，允许轻松下载原始数据并进一步处理。以下代码片段展示如何下载数据：

python import pymovements as pm

dataset = pm.Dataset(PoTeC, path=data/PoTeC) dataset.download()

数据文件读取注意事项

德语文本p3包含单词"null"，如果使用pandas读取单词特征，单词"null"会被解释为NA值。为避免此行为，可以使用以下命令：

python import pandas as pd pd.read_csv(word_features_p3.tsv, sep= ,
keep_default_na=False, na_values=[#N/A, #N/A N/A, #NA, -1.#IND, -1.#QNAN, -NaN, -nan, 1.#IND, 1.#QNAN, <NA>, N/A, NA, NaN, None, n/a, nan, ] )

数据概览

数据在不同阶段可用，存储在相应子文件夹中，每个文件夹包含一个README文件，提供有关数据及其使用方法的更多信息。详细描述请参考CODEBOOK。

引用

@misc{potec, url={url{https://github.com/DiLi-Lab/PoTeC}}, author={Jakobi, Deborah N. and Kern, Thomas and Reich, David R. and Haller, Patrick and Jäger, Lena A.}, title={{PoTeC}: A {German} Naturalistic Eye-tracking-while-reading Corpus}, year={2024}, note={under review} }

搜集汇总

数据集介绍

构建方式

在眼动追踪研究领域，构建自然主义阅读语料库对于探究真实情境下的语言认知过程至关重要。波茨坦教科书语料库（PoTeC）的构建采用了严谨的实验设计，招募了75名德语母语者，涵盖物理学与生物学两个学科领域的研究生与本科生。实验采用2×2×2全交叉因子设计，将参与者的学科背景与学习阶段作为被试间变量，文本领域作为被试内变量。参与者阅读12篇选自大学教科书的科学文本，每篇文本约158词，并辅以文本理解与背景知识测试。眼动数据通过Eyelink 1000设备以1000Hz采样率采集，并经过多阶段预处理，包括原始数据解析、注视点计算与手动校正，最终形成包含字符级与词级注释的标准化数据集。

使用方法

PoTeC语料库支持广泛的研究应用，用户可通过官方GitHub仓库获取完整的数据与预处理代码。数据集提供字符级扫描路径与词级阅读指标两种核心数据格式，便于开展不同粒度的分析。研究者可利用其被试内设计探究专业知识对阅读模式的影响，或借助丰富的语言学特征训练计算模型，用于阅读能力评估、文本难度预测等任务。此外，校正与未校正注视点的并行提供为开发自动校正算法提供了训练与验证资源。数据集已集成至pymovements包，用户可在Python或R环境中直接调用，实现从数据下载到可视化分析的一体化流程，显著降低了技术门槛。

背景与挑战

背景概述

波茨坦教科书语料库（PoTeC）作为德语自然主义阅读眼动追踪语料库，由苏黎世大学与波茨坦大学的研究团队于2024年正式发布。该语料库旨在突破传统受控实验的局限，通过采集75名参与者在阅读12篇科学教科书文本时的眼动数据，构建首个在受试者内部操纵领域专家与新手阅读对比的自然主义阅读数据集。其核心研究问题聚焦于探索专业知识水平对阅读策略与认知加工过程的影响，采用2×2×2全交叉因子设计，系统控制学科背景、学习阶段与文本领域等变量。PoTeC的诞生不仅为心理语言学与认知科学提供了生态效度更高的研究素材，更通过多层次语言特征标注与FAIR原则的数据共享机制，显著推动了跨学科认知计算模型的发展。

当前挑战

PoTeC致力于解决自然主义阅读环境下专家与新手认知差异量化分析的挑战，其核心在于如何从连续眼动轨迹中提取可解释的认知特征以区分专业知识驱动的加工模式。构建过程中面临多重技术难题：首先，高精度眼动仪采集的原始数据存在垂直校准漂移现象，需通过人工校正确保注视点与文本字符的准确映射，这一过程耗时且依赖专业判断；其次，科学教科书文本包含大量专业术语与复杂句式，需建立涵盖词法、句法及预测性计算特征的多层次标注体系，涉及手动标注与语言模型自动标注的协同整合；此外，为保障数据可重用性，需设计兼顾原始数据、校正数据与计算代码的透明化发布架构，这对数据标准化与跨平台兼容性提出了极高要求。

常用场景

经典使用场景

在心理语言学和认知科学领域，波茨坦教科书语料库（PoTeC）为研究专家与非专家阅读策略提供了经典的自然主义实验场景。该数据集通过精心设计的2×2×2全交叉因子实验，让75名物理与生物专业的本科生和研究生阅读12篇科学教科书文本，同时记录其眼动轨迹。这种设计使得研究者能够在生态效度较高的自然阅读环境中，系统比较不同知识背景读者处理专业文本时的认知加工差异，为探索专业知识对阅读加工的影响机制提供了理想的研究平台。

解决学术问题

PoTeC有效解决了自然主义阅读研究中长期存在的实验控制与生态效度难以兼顾的学术难题。传统眼动研究多采用人工编制的极简配对刺激，虽能精确检验特定假设，却牺牲了语言现象的多样性和真实阅读情境的代表性。该数据集通过提供真实教科书文本的阅读眼动数据，并引入专业知识水平作为被试内变量，使得研究者能够在保持文本自然性的同时，系统考察词汇频率、词长、惊奇值等语言特征对阅读加工的影响，以及专业知识如何调节这些加工过程，从而在理论验证与现象发现之间架起桥梁。

实际应用

在实际应用层面，PoTeC为教育技术、人机交互和自适应学习系统的发展提供了宝贵的数据资源。基于该数据集训练的机器学习模型能够通过分析读者的眼动模式，实时评估其专业知识水平或文本理解程度，进而为个性化在线教育平台提供认知状态诊断功能。例如，在数字化学习环境中，系统可根据眼动特征动态调整文本难度或提供针对性解释，实现认知负荷的优化管理。此外，该数据集还可用于开发更符合人类认知规律的自然语言处理模型，提升机器对复杂科学文本的理解能力。

数据集最近研究