coref-data/preco_raw

Name: coref-data/preco_raw
Creator: coref-data
Published: 2024-01-19 00:03:45
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/coref-data/preco_raw

下载链接

链接失效反馈

官方服务：

资源简介：

PreCo是一个用于共指消解的大规模英语数据集，旨在通过增加训练集和测试集之间的重叠来解决共指消解中的核心挑战，如实体表示。数据集包含38K文档和12.5M单词，主要来自英语学龄前儿童的词汇。此外，数据集还标注了单例提及，首次量化了提及检测器对共指消解性能的影响。数据集包含两个JSON行文件，分别用于训练和开发集，每个文件中的每一行都是一个编码文档的JSON字符串。

提供机构：

coref-data

原始信息汇总

PreCo 数据集

概述

PreCo 是一个用于指代消解的大规模英语数据集。该数据集旨在通过减少训练集和测试集之间的低重叠问题，并支持提及检测和提及聚类的分离分析，来体现指代消解中的核心挑战，如实体表示。

数据集详情

数据来源: 38K 文档和 12.5M 单词，主要来自英语母语的学龄前儿童词汇。
实验结果: 与现有的流行数据集 OntoNotes 相比，PreCo 在训练-测试重叠度更高的情况下，错误分析更为高效。
单例提及: 通过标注单例提及，首次量化了提及检测器对指代消解性能的影响。

数据格式

文件类型: 包含两个 JSON 行文件，分别用于训练和开发集。
文件内容: 每行是一个 JSON 字符串，编码一个文档。
字段说明:
- "id": 文档的字符串标识符。
- "sentences": 文本内容，包含句子列表，每个句子包含单词或标点符号的列表。
- "mention_clusters": 文档的提及聚类，包含提及聚类列表，每个提及聚类包含提及列表，每个提及是一个整数元组 [sentence_idx, begin_idx, end_idx]。

引用

@inproceedings{chen-etal-2018-preco, title = "{P}re{C}o: A Large-scale Dataset in Preschool Vocabulary for Coreference Resolution", author = "Chen, Hong and Fan, Zhenhua and Lu, Hao and Yuille, Alan and Rong, Shu", editor = "Riloff, Ellen and Chiang, David and Hockenmaier, Julia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1016", doi = "10.18653/v1/D18-1016", pages = "172--181", abstract = "We introduce PreCo, a large-scale English dataset for coreference resolution. The dataset is designed to embody the core challenges in coreference, such as entity representation, by alleviating the challenge of low overlap between training and test sets and enabling separated analysis of mention detection and mention clustering. To strengthen the training-test overlap, we collect a large corpus of 38K documents and 12.5M words which are mostly from the vocabulary of English-speaking preschoolers. Experiments show that with higher training-test overlap, error analysis on PreCo is more efficient than the one on OntoNotes, a popular existing dataset. Furthermore, we annotate singleton mentions making it possible for the first time to quantify the influence that a mention detector makes on coreference resolution performance. The dataset is freely available at url{https://preschool-lab.github.io/PreCo/}.", }

搜集汇总

数据集介绍

构建方式

在指代消解研究领域，数据集的构建方式直接影响模型训练与评估的有效性。PreCo数据集通过系统性地收集约3.8万份文档，涵盖1250万词汇，其语料主要源自英语学龄前儿童的词汇范围，旨在增强训练集与测试集之间的词汇重叠度。该数据集采用JSON行格式存储，每条记录对应一个文档，包含句子序列及指代簇标注；其中指代簇以元组形式精确标注每个提及的句子索引、起始与结束位置，为零基索引，同时创新性地标注了单例提及，为分离提及检测与聚类分析提供了结构化基础。

使用方法

使用PreCo数据集时，研究者可通过其公开的JSON行文件进行模型训练与开发。数据集分为训练集和开发集，每行以JSON字符串编码单个文档，包含ID、句子列表及指代簇信息；句子以词汇标记列表形式呈现，指代簇则通过三维整数元组定位提及位置。用户可基于此结构构建指代消解管道，先进行提及检测，再执行聚类分析，并利用单例提及标注评估检测模块的独立贡献。该数据集适用于学术研究，旨在促进指代消解算法的比较与优化，但测试集暂未公开，以待后续竞赛或发布决策。

背景与挑战

背景概述

在自然语言处理领域，指代消解是理解文本中实体关联的核心任务，其研究长期面临数据稀缺与标注复杂性等障碍。PreCo数据集由香港中文大学等机构的研究团队于2018年创建，旨在通过大规模、高质量的标注资源，系统性地应对指代消解中的实体表征与训练测试集重叠度低等核心问题。该数据集包含约3.8万份文档和1250万词汇，主要源自学龄前儿童的英语词汇，不仅显著提升了训练与测试数据之间的词汇重叠度，还首次引入了单例指称标注，为量化指称检测模块对整体性能的影响提供了可能。PreCo的推出，为指代消解模型的精细化评估与错误分析奠定了重要基础，推动了该领域从粗粒度评估向细粒度诊断的演进。

当前挑战

指代消解任务本身固有的挑战在于准确识别文本中指向同一实体的不同表述，尤其是在实体表述多样、语境依赖性强的情况下，模型容易产生歧义或遗漏。PreCo数据集在构建过程中，需克服大规模语料标注的复杂性，包括确保指称簇标注的一致性与完整性，以及处理学龄前儿童词汇中特有的语法简化和语境隐含现象。此外，如何设计数据划分以维持训练集与测试集的高重叠度，从而降低词汇分布差异带来的评估偏差，亦是构建过程中的关键难题。这些挑战共同促使研究者深入探索指代消解中实体表征与聚类分离的评估框架。

常用场景

经典使用场景

在指代消解研究领域，PreCo数据集以其大规模和高训练-测试集重叠度的特性，成为评估和开发指代消解模型的经典基准。该数据集通过涵盖学龄前儿童词汇的文档，有效模拟了自然语言中实体指代的复杂性，使得研究者能够深入探究实体表示和指代链形成的机制。其标注的单例提及进一步允许分离提及检测与提及聚类任务，为模型性能的精细化分析提供了可能。

解决学术问题

PreCo数据集主要解决了指代消解中训练与测试集词汇重叠度低的问题，从而提升了模型泛化能力和错误分析的效率。通过引入单例提及的标注，该数据集首次实现了对提及检测器在指代消解性能中影响的量化评估，突破了传统数据集的局限。这一贡献使得研究者能够更准确地识别模型瓶颈，推动了指代消解理论的发展，并为后续研究提供了更可靠的实验基础。

实际应用

在实际应用中，PreCo数据集被广泛用于自然语言处理系统的开发，如智能对话系统、文档摘要和机器翻译等领域。其基于学龄前儿童词汇的语料库，有助于构建更鲁棒的语言理解模型，提升系统在简化语言环境中的指代处理能力。这为教育技术、儿童辅助工具等实际场景提供了技术支持，促进了人机交互的自然性和准确性。

数据集最近研究