coref-data/winogrande_coref

Name: coref-data/winogrande_coref
Creator: coref-data
Published: 2024-01-19 00:03:44
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/coref-data/winogrande_coref

下载链接

链接失效反馈

官方服务：

资源简介：

WinoGrande数据集被重新构建为共指消解任务，具体描述见论文《Investigating Failures to Generalize for Coreference Resolution Models》。数据集包含训练集和开发集，数据字段包括ID、文本、句子、共指链等。句子部分进一步细分为句子ID、文本、说话者、词元等。共指链部分列出了每个簇的提及，每个提及用句子索引、起始位置和结束位置表示。数据集的类型为众包，元数据部分包含注释和分词器的信息。

提供机构：

coref-data

原始信息汇总

Wingrande Recast as Coreference Resolution

数据集概述

WinoGrande训练集和开发集被重新构造成指代消解任务，如Investigating Failures to Generalize for Coreference Resolution Models所述。使用Stanza解析Conllu列。

数据字段

python { "id": str, # 示例ID "text": str, # 未分词的示例文本 "sentences": [ { "id": int, # 句子索引 "text": str, # 未分词的句子文本 "speaker": None, # 说话者 "tokens": [ { # 键是conllu列：id, text, lemma, upos, xpos, feats, head, deprel, deps, misc }, ... ] }, ... ], "coref_chains": List[List[List[int]]], # 集群列表，每个集群是提及列表，每个提及是一个跨度，表示为[sent, start, end]，包括端点 "genre": "crowdsourced", "meta_data": { "comment": "syntax_annotations=stanza|tokenizer=stanza|detokenizer=nltk", }, }

引用信息

@misc{porada2023investigating, title={Investigating Failures to Generalize for Coreference Resolution Models}, author={Ian Porada and Alexandra Olteanu and Kaheer Suleman and Adam Trischler and Jackie Chi Kit Cheung}, year={2023}, eprint={2303.09092}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@InProceedings{ai2:winogrande, title = {WinoGrande: An Adversarial Winograd Schema Challenge at Scale}, authors={Keisuke, Sakaguchi and Ronan, Le Bras and Chandra, Bhagavatula and Yejin, Choi }, year={2019} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，指代消解任务旨在识别文本中指向同一实体的不同表述。本数据集基于WinoGrande数据集重构而成，该数据集最初设计用于评估常识推理能力。重构过程遵循《Investigating Failures to Generalize for Coreference Resolution Models》论文所述方法，将WinoGrande的训练集与开发集转化为指代消解格式。文本经过Stanza工具进行句法解析，生成包含词性标注、依存关系等详细语言学信息的CoNLL-U格式标注，同时通过自动化流程标注了共指链，将原文中的实体提及组织为聚类结构，为模型泛化研究提供了结构化基础。

特点

该数据集的核心特征在于其对抗性构建与精细的标注层次。作为WinoGrande的衍生版本，它继承了原数据集的对抗性设计，其中选项经过精心构造以挑战模型的表面偏见。数据以JSON格式组织，每个样本包含原始文本、分句信息及完整的句法树标注，共指链以三维列表形式呈现，精确标注了跨句子的实体提及边界。数据来源标注为众包，确保了语料的多样性与真实性，元数据中详细记录了标注工具链，包括Stanza用于句法与分词、NLTK用于逆分词，为可复现性提供了保障。

使用方法

该数据集适用于指代消解模型的训练、评估与泛化能力分析。研究人员可直接加载JSON格式数据，利用‘sentences’字段中的分词与句法信息作为输入特征，结合‘coref_chains’标注进行监督学习。数据集的对抗性特质使其特别适合用于测试模型对语言偏见的鲁棒性，以及探究跨领域泛化失败的原因。在使用时，需注意数据已预分割为训练集与开发集，可直接用于交叉验证；引用时需同时注明本数据集与原始WinoGrande的文献来源，以尊重其学术传承。

背景与挑战

背景概述

在自然语言处理领域，指代消解任务旨在识别文本中指向同一实体的不同表述，是理解篇章连贯性的核心问题。2023年，由Ian Porada、Alexandra Olteanu等研究人员组成的团队，基于2019年发布的WinoGrande数据集，重构了名为'coref-data/winogrande_coref'的专项数据集。该数据集将WinoGrande中的大规模对抗性Winograd模式挑战转化为指代消解形式，旨在系统探究模型在泛化过程中出现的失败案例，从而推动指代消解模型在复杂语言现象中的鲁棒性研究，对提升机器对自然语言深层语义的理解具有重要影响。

当前挑战

该数据集所针对的指代消解领域，长期面临模型在对抗性样本或分布外数据上泛化能力不足的挑战，具体表现为对依赖常识推理、模糊指代或长距离依赖关系的指代链识别困难。在构建过程中，挑战主要源于如何将原始WinoGrande的二元选择问题精准转化为结构化的指代标注，这涉及对文本进行句法解析以获取词元级标注，并确保指代链跨句子的边界标注在复杂语境下保持一致性，同时需处理众包数据带来的噪声与标注歧义问题。

常用场景

经典使用场景

在自然语言处理领域，指代消解任务旨在识别文本中指向同一实体的不同表达。Winogrande_coref数据集将经典的Winograd Schema Challenge问题重构为指代消解形式，为模型提供了丰富的共指链标注。该数据集常用于评估和训练指代消解模型在复杂语境下的推理能力，特别是在处理涉及常识推理和代词消歧的句子时，能够检验模型对上下文依赖关系的理解深度。

衍生相关工作

该数据集的构建思想衍生出多项经典研究。例如，基于其对抗性样本设计的诊断框架被用于解构指代消解模型的偏差来源；部分工作结合该数据集的语法标注探索了句法特征与共指推理的关联机制。相关研究进一步推动了如动态数据增强、多任务学习等方法的创新，为指代消解领域提供了兼具理论深度与实践价值的探索路径。

数据集最近研究