coref-data/dpr_raw

Name: coref-data/dpr_raw
Creator: coref-data
Published: 2024-01-19 00:03:37
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/coref-data/dpr_raw

下载链接

链接失效反馈

官方服务：

资源简介：

数据集名为definite_pronoun_resolution，主要用于解决定代词解析问题。数据集由30名本科生创建，涵盖了从真实事件到电影情节的多种主题。每个标注示例包含四行：句子、目标代词、两个候选先行词和正确的先行词。数据集的下载文件大小为0.23 MB，生成的数据集大小为0.24 MB，总磁盘使用量为0.47 MB。数据集的结构包括句子、代词、候选词和标签等字段，并分为训练集和测试集。

提供机构：

coref-data

原始信息汇总

"definite_pronoun_resolution" (dpr)

数据集描述

数据集摘要

该数据集由30名学生组成，这些学生来自作者之一的本科课程。这些句子对涵盖了从真实事件（例如，伊朗计划攻击沙特驻美国大使）到电影中的事件/角色（例如，蝙蝠侠）以及纯属虚构的情况，主要反映了90年代初出生的美国孩子所感知的流行文化。每个标注的示例包含四行：第一行包含句子，第二行包含目标代词，第三行包含两个候选先行词，第四行包含正确的先行词。如果目标代词在句子中出现多次，则需要解析其第一次出现。

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

plain_text

下载的数据集文件大小: 0.23 MB
生成的数据集大小: 0.24 MB
总磁盘使用量: 0.47 MB

一个train示例如下： json { "candidates": ["coreference resolution", "chunking"], "label": 0, "pronoun": "it", "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved." }

数据字段

所有拆分的数据字段相同。

plain_text

sentence: 一个string特征。
pronoun: 一个string特征。
candidates: 一个list的string特征。
label: 一个分类标签，可能的值包括0 (0), 1 (1)。

数据拆分

name	train	test
plain_text	1322	564

引用信息

请在使用此数据集时引用以下论文：

@inproceedings{rahman2012resolving, title={Resolving complex cases of definite pronouns: the winograd schema challenge}, author={Rahman, Altaf and Ng, Vincent}, booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning}, pages={777--789}, year={2012}, organization={Association for Computational Linguistics} }

贡献

感谢@thomwolf, @lewtun, @patrickvonplaten 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集