five

ZuCo 2.0|认知科学数据集|自然语言处理数据集

收藏
arXiv2020-03-08 更新2024-06-21 收录
认知科学
自然语言处理
下载链接:
https://osf.io/2urht/
下载链接
链接失效反馈
资源简介:
ZuCo 2.0是由苏黎世联邦理工学院计算机科学系和苏黎世大学心理学系共同创建的数据集,专注于自然阅读和注释过程中的生理记录。该数据集包含739个英语句子,其中349个用于正常阅读,390个用于特定任务阅读,涉及18名参与者。数据集通过同时记录眼动追踪和脑电图(EEG)来捕捉阅读过程中的认知处理差异。创建过程包括精心设计的实验和数据采集,旨在分析自然阅读与注释之间的认知处理差异。ZuCo 2.0的应用领域广泛,包括但不限于改进自然语言处理(NLP)算法、评估语言模型以及提高监督机器学习中标注过程的效率和质量。
提供机构:
苏黎世联邦理工学院计算机科学系,苏黎世大学心理学系
创建时间:
2019-12-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
ZuCo 2.0数据集的构建,旨在通过自然阅读和标注过程中的眼动追踪和脑电图(EEG)记录,捕捉人类语言处理的生理数据。该数据集包含739个英文句子,其中349个句子在正常阅读模式下被阅读,390个句子在特定任务模式下被阅读,参与者需在句子中寻找语义关系类型。数据集的设计允许研究人员分析自然阅读和标注过程中认知处理的差异。
特点
ZuCo 2.0数据集的特点在于其提供了同时记录眼动追踪和脑电图数据的能力,这允许研究人员更深入地理解语言理解过程中的认知负荷和生理过程。数据集包含18名参与者的生理数据,这些数据经过预处理,并提取了多种眼动追踪和脑电图特征,如注视持续时间、阅读时间、注视次数等。此外,数据集还包含了语义关系标签,使得其在关系抽取和分类任务中具有广泛的应用价值。
使用方法
使用ZuCo 2.0数据集的方法主要包括以下几个步骤:首先,下载数据集和相关脚本;其次,根据研究需求进行数据预处理和特征提取;最后,使用提取的特征进行机器学习模型的训练和评估。例如,可以使用眼动追踪特征来评估自然语言处理模型中的语言现象,或者使用脑电图特征来评估词向量表示的认知合理性。此外,数据集中的语义关系标签还可以用于训练和评估关系抽取和分类模型。
背景与挑战
背景概述
ZuCo 2.0数据集是一个新的生理数据集,它包含了18位参与者在进行自然阅读和标注任务时的同时眼动追踪和脑电图(EEG)数据。该数据集包含739个英语句子,其中349个句子是在正常阅读范式下记录的,390个句子是在特定任务范式下记录的,参与者需要在这些句子中积极寻找语义关系类型作为语言标注任务。ZuCo 2.0数据集补充了ZuCo 1.0,提供了分析自然阅读和标注之间认知处理差异的实验设计。该数据集旨在研究人类如何处理语言,这对于自然语言处理(NLP)领域具有重要意义,因为它可以提供关于语言理解过程的生理数据,这对于改进和评估NLP应用至关重要。
当前挑战
ZuCo 2.0数据集面临的挑战包括:1) 解决领域问题的挑战:该数据集旨在解决自然语言处理中人类语言处理数据的重要性,以及如何利用这些数据来改进和评估NLP应用。2) 构建过程中的挑战:在构建数据集的过程中,研究人员需要克服技术难题,如同步眼动追踪和EEG数据,并确保数据的质量和可靠性。此外,数据集的构建还需要考虑伦理问题,确保参与者的隐私和数据安全。
常用场景
经典使用场景
ZuCo 2.0 数据集是一个包含生理记录的自然阅读和注释数据集,它通过同时记录眼动追踪和脑电图(EEG)数据来捕捉阅读过程。该数据集包含739个英语句子,其中349个句子用于正常阅读范式,390个句子用于特定任务范式,参与者在这些范式中积极寻找给定的句子中的语义关系类型。ZuCo 2.0 数据集经典的使用场景包括自然语言处理(NLP)中的应用,例如词性标注、句子压缩和文本信息提取等。此外,该数据集还可以用于训练和评估机器学习算法,例如通过分析脑电信号来评估语言模型或改进标注过程。
解决学术问题
ZuCo 2.0 数据集解决了自然语言处理中人类语言处理数据可用性不足的问题。该数据集提供了同时记录眼动追踪和脑电图数据的实验设计,从而能够分析自然阅读和注释过程中认知处理的差异。此外,该数据集还解决了标注过程中人工成本高的问题,因为生理数据可以用于构建成本模型,从而降低标注成本。ZuCo 2.0 数据集的意义和影响在于,它为 NLP 和机器学习研究提供了宝贵的生理数据,并促进了自然语言理解和标注过程的研究。
衍生相关工作
ZuCo 2.0 数据集衍生了许多相关的工作。例如,一些研究使用眼动追踪数据来分析标注过程,例如 Tokunaga 等人(2017)使用眼动追踪数据来研究命名实体标注过程。此外,一些研究使用眼动追踪数据来构建成本模型,例如 Tomanek 等人(2010)使用眼动追踪数据来构建实体标注的成本模型。最后,一些研究使用脑电图数据来评估语言模型,例如 Hollenstein 等人(2019)使用脑电图数据来评估词嵌入。ZuCo 2.0 数据集为这些研究提供了宝贵的数据支持,并促进了自然语言处理和机器学习领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

MedTrinity-25M

MedTrinity-25M是由华中科技大学、加州大学圣克鲁兹分校、哈佛大学和斯坦福大学联合创建的一个大规模多模态医学数据集,包含超过2500万张图像,涉及10种模态和65种疾病。数据集通过自动化的数据构建流程生成,不依赖于配对的文本描述,而是通过专家模型和知识库增强的多模态大型语言模型生成多粒度视觉和文本注释。数据集的创建过程包括从90多个在线资源收集数据,应用专家模型识别感兴趣区域(ROIs),并构建知识库以生成详细的文本描述。MedTrinity-25M旨在支持广泛的医学多模态任务,如图像标注和报告生成,以及视觉中心的任务如分类和分割,推动医学领域基础模型的发展。

arXiv 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

美团数据采集

查询店铺商品管理、门店管理、美团收单、门店资质、订单管理、顾客评价、财务管理等数据等数据

湖北省公共数据授权运营平台 收录