five

community-datasets/definite_pronoun_resolution

收藏
Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/definite_pronoun_resolution
下载链接
链接失效反馈
资源简介:
该数据集名为Definite Pronoun Resolution Dataset,主要用于代词消解任务。数据集由30名本科生创建,涵盖了从真实事件到电影情节的多种主题,反映了90年代美国流行文化。每个标注示例包含四行:第一行是句子,第二行是目标代词,第三行是两个候选先行词,第四行是正确的先行词。如果目标代词在句子中出现多次,则其第一次出现是需要消解的。数据集的配置为plain_text,包含train和test两个分割,分别有1322和564个样本。数据集的下载大小为0.23 MB,生成大小为0.24 MB,总磁盘使用量为0.47 MB。
提供机构:
community-datasets
原始信息汇总

Definite Pronoun Resolution Dataset 数据集概述

数据集描述

数据集摘要

该数据集由30名学生从一位作者的本科课程中收集。这些句子对涵盖了从真实事件(如伊朗计划攻击沙特驻美国大使)到电影中的事件/角色(如蝙蝠侠)和纯虚构情景,主要反映了90年代初出生的美国孩子所感知的流行文化。每个标注的示例包含四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选先行词,第四行包含正确的先行词。如果目标代词在句子中出现多次,则其第一次出现是需要解析的。

支持的任务和排行榜

更多信息需补充

语言

更多信息需补充

数据集结构

数据实例

plain_text

一个训练集的示例如下: json { "candidates": ["coreference resolution", "chunking"], "label": 0, "pronoun": "it", "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved." }

数据字段

所有拆分中的数据字段相同。

plain_text

  • sentence: 字符串特征。
  • pronoun: 字符串特征。
  • candidates: 字符串列表特征。
  • label: 分类标签,可能的值包括 01

数据拆分

name train test
plain_text 1322 564

数据集创建

策划理由

更多信息需补充

源数据

初始数据收集和规范化

更多信息需补充

源语言生产者是谁?

更多信息需补充

标注

标注过程

更多信息需补充

标注者是谁?

更多信息需补充

个人和敏感信息

更多信息需补充

使用数据的注意事项

数据集的社会影响

更多信息需补充

偏见的讨论

更多信息需补充

其他已知限制

更多信息需补充

附加信息

数据集策展人

更多信息需补充

许可信息

更多信息需补充

引用信息

@inproceedings{rahman2012resolving, title={Resolving complex cases of definite pronouns: the winograd schema challenge}, author={Rahman, Altaf and Ng, Vincent}, booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning}, pages={777--789}, year={2012}, organization={Association for Computational Linguistics} }

贡献

感谢 @thomwolf, @lewtun, @patrickvonplaten 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,指代消解任务旨在确定代词在上下文中的具体指代对象。该数据集的构建过程体现了学术研究的严谨性,由三十名本科生在作者指导下共同完成。这些句子对涵盖了从真实事件到电影情节乃至虚构情境的广泛主题,生动反映了上世纪九十年代初美国青年所感知的流行文化。每个标注样本包含四个部分:原始句子、目标代词、两个候选先行词以及正确的先行词标识,确保了数据结构的清晰与一致性。
特点
该数据集在指代消解研究中展现出独特价值,其规模适中,包含1886个标注实例,划分为1322个训练样本和564个测试样本。数据字段设计精炼,涵盖句子文本、待解析代词、二元候选词列表及分类标签。样本内容具有鲜明的时代文化特征,既包含国际政治事件,也涉及蝙蝠侠等流行文化元素,为模型提供了丰富的语义理解场景。这种多元主题分布有助于评估模型在不同语境下的泛化能力。
使用方法
研究者可通过HuggingFace平台便捷加载该数据集,其标准化的数据分割为模型训练与评估提供了直接支持。典型应用流程包括:使用句子文本作为输入特征,将代词与候选词作为解析目标,通过分类标签监督模型学习指代关系。该数据集特别适用于评估模型对复杂语义关系的理解能力,可作为Winograd模式挑战的基准数据。在预处理时需注意代词在句中的首次出现位置为待解析实例,这符合自然语言处理中对指代消解任务的常规设定。
背景与挑战
背景概述
在自然语言处理领域,指代消解是理解文本语义连贯性的核心任务之一,旨在确定代词在上下文中所指代的实体。Definite Pronoun Resolution Dataset由Altaf Rahman和Vincent Ng于2012年创建,作为Winograd Schema Challenge的组成部分,其研究聚焦于解决复杂定代词消解问题。该数据集通过专家生成与众包结合的方式构建,包含1886个英语例句,覆盖从现实事件到流行文化等多种主题,反映了20世纪90年代初美国青年的文化认知。这一数据集的建立推动了计算语言学在语义理解方面的发展,为后续指代消解模型的评估提供了重要基准。
当前挑战
Definite Pronoun Resolution Dataset所针对的指代消解任务,面临语义歧义性和上下文依赖性的双重挑战。代词往往在句子中具有多个潜在指代对象,模型需深入理解句法结构、语义角色乃至世界知识才能做出准确判断。在数据集构建过程中,挑战主要体现在标注一致性上,由于例句涉及广泛的主题领域,确保众包标注者对不同文化背景和虚构情境的理解保持一致尤为困难。此外,数据规模相对有限,可能制约模型在复杂语言现象上的泛化能力,这些因素共同构成了该数据集在研究和应用中的主要难点。
常用场景
经典使用场景
在自然语言处理领域,指代消解是理解文本语义关联的核心任务之一。Definite Pronoun Resolution Dataset 作为经典的指代消解数据集,其最经典的使用场景在于评估和训练模型对英语中明确代词(如“it”、“he”、“she”)的指代关系进行解析的能力。该数据集通过提供包含代词、候选先行词及正确标签的句子对,为研究者构建了一个标准化的测试环境,常用于验证机器学习模型在复杂语境下识别代词所指实体的准确性,尤其在处理涉及文化背景或虚构情境的文本时展现出独特价值。
解决学术问题
该数据集主要解决了自然语言处理中代词消解这一长期存在的学术难题,特别是针对明确代词的复杂指代情况。通过提供人工标注的实例,它帮助研究者克服了传统方法在语义歧义和上下文依赖方面的局限,推动了基于统计和深度学习的消解模型的发展。其意义在于为指代消解任务设立了可量化的评估基准,促进了模型在语义理解层面的进步,对提升机器阅读理解和对话系统的性能产生了深远影响。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作。例如,Rahman 和 Ng 在 2012 年发表的论文中首次提出了 Winograd Schema Challenge 的变体,利用该数据集探索代词消解的复杂案例;后续研究则扩展至基于神经网络的模型,如使用注意力机制或预训练语言模型(如 BERT)来提升消解性能。这些工作不仅深化了对指代消解理论的理解,还推动了自然语言处理向更细粒度语义分析方向发展,为后续数据集(如 WSC 和 DPR)的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作