ZuCo 2.0

Name: ZuCo 2.0
Creator: 苏黎世联邦理工学院计算机科学系，苏黎世大学心理学系
Published: 2020-03-08 04:14:16
License: 暂无描述

arXiv2020-03-08 更新2024-06-21 收录

下载链接：

https://osf.io/2urht/

下载链接

链接失效反馈

官方服务：

资源简介：

ZuCo 2.0是由苏黎世联邦理工学院计算机科学系和苏黎世大学心理学系共同创建的数据集，专注于自然阅读和注释过程中的生理记录。该数据集包含739个英语句子，其中349个用于正常阅读，390个用于特定任务阅读，涉及18名参与者。数据集通过同时记录眼动追踪和脑电图（EEG）来捕捉阅读过程中的认知处理差异。创建过程包括精心设计的实验和数据采集，旨在分析自然阅读与注释之间的认知处理差异。ZuCo 2.0的应用领域广泛，包括但不限于改进自然语言处理（NLP）算法、评估语言模型以及提高监督机器学习中标注过程的效率和质量。

ZuCo 2.0 is a dataset co-created by the Department of Computer Science at ETH Zurich and the Department of Psychology at the University of Zurich, focusing on physiological recordings during natural reading and annotation processes. It contains 739 English sentences, with 349 allocated for normal reading and 390 for task-specific reading, involving a total of 18 participants. The dataset captures variations in cognitive processing during reading by simultaneously collecting eye-tracking and electroencephalography (EEG) data. Its development involved meticulously designed experiments and data acquisition procedures, with the goal of analyzing differences in cognitive processing between natural reading and annotation tasks. ZuCo 2.0 has a wide range of application scenarios, including but not limited to improving natural language processing (NLP) algorithms, evaluating language models, and boosting the efficiency and quality of the annotation process in supervised machine learning.

提供机构：

苏黎世联邦理工学院计算机科学系，苏黎世大学心理学系

创建时间：

2019-12-03

搜集汇总

数据集介绍

构建方式

ZuCo 2.0数据集的构建，旨在通过自然阅读和标注过程中的眼动追踪和脑电图（EEG）记录，捕捉人类语言处理的生理数据。该数据集包含739个英文句子，其中349个句子在正常阅读模式下被阅读，390个句子在特定任务模式下被阅读，参与者需在句子中寻找语义关系类型。数据集的设计允许研究人员分析自然阅读和标注过程中认知处理的差异。

特点

ZuCo 2.0数据集的特点在于其提供了同时记录眼动追踪和脑电图数据的能力，这允许研究人员更深入地理解语言理解过程中的认知负荷和生理过程。数据集包含18名参与者的生理数据，这些数据经过预处理，并提取了多种眼动追踪和脑电图特征，如注视持续时间、阅读时间、注视次数等。此外，数据集还包含了语义关系标签，使得其在关系抽取和分类任务中具有广泛的应用价值。

使用方法

使用ZuCo 2.0数据集的方法主要包括以下几个步骤：首先，下载数据集和相关脚本；其次，根据研究需求进行数据预处理和特征提取；最后，使用提取的特征进行机器学习模型的训练和评估。例如，可以使用眼动追踪特征来评估自然语言处理模型中的语言现象，或者使用脑电图特征来评估词向量表示的认知合理性。此外，数据集中的语义关系标签还可以用于训练和评估关系抽取和分类模型。

背景与挑战

背景概述

ZuCo 2.0数据集是一个新的生理数据集，它包含了18位参与者在进行自然阅读和标注任务时的同时眼动追踪和脑电图（EEG）数据。该数据集包含739个英语句子，其中349个句子是在正常阅读范式下记录的，390个句子是在特定任务范式下记录的，参与者需要在这些句子中积极寻找语义关系类型作为语言标注任务。ZuCo 2.0数据集补充了ZuCo 1.0，提供了分析自然阅读和标注之间认知处理差异的实验设计。该数据集旨在研究人类如何处理语言，这对于自然语言处理（NLP）领域具有重要意义，因为它可以提供关于语言理解过程的生理数据，这对于改进和评估NLP应用至关重要。

当前挑战

ZuCo 2.0数据集面临的挑战包括：1) 解决领域问题的挑战：该数据集旨在解决自然语言处理中人类语言处理数据的重要性，以及如何利用这些数据来改进和评估NLP应用。2) 构建过程中的挑战：在构建数据集的过程中，研究人员需要克服技术难题，如同步眼动追踪和EEG数据，并确保数据的质量和可靠性。此外，数据集的构建还需要考虑伦理问题，确保参与者的隐私和数据安全。

常用场景

经典使用场景

ZuCo 2.0 数据集是一个包含生理记录的自然阅读和注释数据集，它通过同时记录眼动追踪和脑电图（EEG）数据来捕捉阅读过程。该数据集包含739个英语句子，其中349个句子用于正常阅读范式，390个句子用于特定任务范式，参与者在这些范式中积极寻找给定的句子中的语义关系类型。ZuCo 2.0 数据集经典的使用场景包括自然语言处理（NLP）中的应用，例如词性标注、句子压缩和文本信息提取等。此外，该数据集还可以用于训练和评估机器学习算法，例如通过分析脑电信号来评估语言模型或改进标注过程。

解决学术问题

ZuCo 2.0 数据集解决了自然语言处理中人类语言处理数据可用性不足的问题。该数据集提供了同时记录眼动追踪和脑电图数据的实验设计，从而能够分析自然阅读和注释过程中认知处理的差异。此外，该数据集还解决了标注过程中人工成本高的问题，因为生理数据可以用于构建成本模型，从而降低标注成本。ZuCo 2.0 数据集的意义和影响在于，它为 NLP 和机器学习研究提供了宝贵的生理数据，并促进了自然语言理解和标注过程的研究。

衍生相关工作

ZuCo 2.0 数据集衍生了许多相关的工作。例如，一些研究使用眼动追踪数据来分析标注过程，例如 Tokunaga 等人（2017）使用眼动追踪数据来研究命名实体标注过程。此外，一些研究使用眼动追踪数据来构建成本模型，例如 Tomanek 等人（2010）使用眼动追踪数据来构建实体标注的成本模型。最后，一些研究使用脑电图数据来评估语言模型，例如 Hollenstein 等人（2019）使用脑电图数据来评估词嵌入。ZuCo 2.0 数据集为这些研究提供了宝贵的数据支持，并促进了自然语言处理和机器学习领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集