PreCo
收藏arXiv2018-10-23 更新2024-06-21 收录
下载链接:
https://preschool-lab.github.io/PreCo/
下载链接
链接失效反馈官方服务:
资源简介:
PreCo是由依图科技的幼儿实验室创建的大规模英语数据集,专注于解决共指消解问题。该数据集包含约38,000份文档和1240万词,主要来自英语为母语的学龄前儿童的词汇。PreCo通过提高训练与测试集之间的重叠,解决了训练与测试集之间低重叠的挑战,并首次量化了提及检测器对共指消解性能的影响。数据集的应用领域包括阅读理解、翻译和文本摘要等,旨在提高共指消解算法的效率和准确性。
PreCo is a large-scale English dataset created by the Early Childhood Lab of Yitu Technology, focusing on addressing the coreference resolution task. This dataset contains approximately 38,000 documents and 12.4 million words, mainly sourced from the vocabulary of native English-speaking preschool children. PreCo solves the challenge of low overlap between training and test sets by increasing the overlap between them, and for the first time quantifies the impact of mention detectors on the performance of coreference resolution models. The application fields of this dataset include reading comprehension, translation, text summarization and other areas, aiming to improve the efficiency and accuracy of coreference resolution algorithms.
提供机构:
幼儿实验室,依图科技
创建时间:
2018-10-23
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指代消解任务对高质量数据集的需求日益凸显。PreCo数据集的构建过程体现了严谨的学术设计理念。研究团队从面向中国中学生的英语阅读理解测试中,系统性地爬取并筛选文本,形成了一个包含约3.8万份文档、1240万词汇的大规模语料库。为确保数据质量,团队实施了多阶段的人工与自动化清洗流程,包括格式统一、拼写校正和去重处理。尤为关键的是,该数据集采用了创新的三层标注与集成校验机制:每份文档首先由三位标注员独立完成指代关系标注,随后再由另外三位标注员分别对前两两组合的标注结果进行合并,最终通过集成算法综合三份合并结果,以此最大限度地提升标注的一致性与完整性,有效降低了因标注疏忽导致的误差。
特点
PreCo数据集在指代消解研究领域展现出若干显著特性。其核心优势在于通过限定文本领域——即主要采用学龄前儿童英语词汇范围内的文本——实现了训练集与测试集之间高达99.2%的词汇重叠率,其词汇外比率仅为0.8%,显著低于OntoNotes等现有数据集。这种高重叠特性使得研究者能够更清晰地分离并分析指代消解的核心挑战,而非被数据稀疏性问题所干扰。此外,该数据集开创性地对单例提及进行了全面标注,使得提及检测模块的性能得以独立量化评估,从而能够精确剖析指代消解系统中各子模块的贡献与瓶颈。数据集的规模约为OntoNotes的十倍,为基于深度学习的模型提供了充足的训练样本。
使用方法
PreCo数据集为指代消解算法的开发与评估提供了系统化的研究平台。研究者可利用其大规模训练集(约3.66万份文档)训练端到端的神经指代消解模型,例如基于深度上下文词表征增强的E2E-Coref架构。开发集(500份文档)与测试集(500份文档)则用于模型调优与最终性能评估,主要采用MUC、B³和CEAFφ4三个指标的平均F1分数作为核心评价标准。得益于其完整的单例提及标注,该数据集支持对提及检测与提及聚类两个子任务进行分离式分析:通过将模型预测的提及与黄金标准提及进行对比,可以精确量化提及检测器的性能上限及其对整体系统的影响。这种设计使得研究者能够聚焦于指代消解的本质难题,如实体表征与跨句推理,从而推动该领域向更深层次发展。
背景与挑战
背景概述
在自然语言处理领域,指代消解作为一项基础任务,旨在识别文本中指向同一实体的不同表述,对于机器理解语义连贯性至关重要。PreCo数据集由依图科技学前实验室、山东师范大学及约翰霍普金斯大学的研究团队于2018年联合构建,其核心研究问题聚焦于通过提升训练集与测试集之间的词汇重叠度,以更精准地分离并分析指代消解中的实体表示、提及检测与提及聚类等核心挑战。该数据集收录了约3.8万份文档、1240万词汇,主要源自英语学前儿童的常用词汇范围,规模约为经典数据集OntoNotes的十倍,通过标注单例提及首次实现了对提及检测模块影响的量化评估,为指代消解研究提供了更高效的实验平台。
当前挑战
PreCo数据集致力于解决指代消解任务中的两大挑战:其一,在领域问题层面,传统方法依赖词汇表征,难以处理实体间语义相似或上下文复杂的指代关系,例如区分‘Tom’与‘Jerry’后出现的‘he’所指;其二,在构建过程中,团队需克服数据收集与标注的复杂性,包括从多源网络测试中手动提取文本、统一标注规则的一致性,以及通过多轮人工合并与投票机制提升标注质量,同时避免算法提示引入偏差。此外,数据规模的扩大要求高效的去重策略与质量控制,以确保高训练测试重叠度的设计目标得以实现。
常用场景
经典使用场景
在自然语言处理领域,共指消解作为理解文本语义关联的核心任务,PreCo数据集以其大规模和高训练-测试重叠度的特性,成为评估和优化共指消解模型的经典基准。该数据集主要应用于训练端到端神经网络模型,如E2E-Coref及其增强版本,通过涵盖学龄前儿童词汇的简化文本,有效降低了词汇外(OOV)率,使研究者能够更专注于实体表示和指代聚类等本质挑战。实验表明,PreCo在提升模型性能的同时,为错误分析提供了更清晰的视角,推动了共指消解算法在有限领域内的深度探索。
实际应用
在实际应用中,PreCo数据集为构建高性能共指消解系统提供了可靠的数据支撑,尤其在教育技术、智能阅读辅助和机器翻译等领域展现出重要价值。基于该数据集训练的模型能够更精准地识别文本中的实体关联,提升阅读理解系统的答案抽取准确性,同时增强自动摘要和对话系统的一致性维护能力。其简化的词汇范围与高重叠度特性,也使得模型在特定领域(如儿童教育内容处理)中具备更强的实用性和可解释性,为自然语言处理技术的落地应用奠定了数据基础。
衍生相关工作
PreCo数据集的发布催生了一系列围绕共指消解核心挑战的衍生研究,尤其在指代检测与聚类模块的分离分析方面产生了深远影响。基于PreCo的单例指代标注,后续工作如EE2E-Coref等模型得以量化指代检测误差对整体性能的贡献,推动了端到端框架的精细化改进。同时,数据集的高重叠度特性激发了针对低资源领域适应性的方法探索,促进了跨领域共指消解模型的稳健性研究。这些工作共同深化了对实体表示和上下文建模的理论理解,为自然语言处理的进阶发展提供了关键实验平台。
以上内容由遇见数据集搜集并总结生成



