coref-data/dpr_raw
收藏"definite_pronoun_resolution" (dpr)
数据集描述
数据集摘要
该数据集由30名学生组成,这些学生来自作者之一的本科课程。这些句子对涵盖了从真实事件(例如,伊朗计划攻击沙特驻美国大使)到电影中的事件/角色(例如,蝙蝠侠)以及纯属虚构的情况,主要反映了90年代初出生的美国孩子所感知的流行文化。每个标注的示例包含四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选先行词,第四行包含正确的先行词。如果目标代词在句子中出现多次,则需要解析其第一次出现。
支持的任务和排行榜
语言
数据集结构
数据实例
plain_text
- 下载的数据集文件大小: 0.23 MB
- 生成的数据集大小: 0.24 MB
- 总磁盘使用量: 0.47 MB
一个train示例如下: json { "candidates": ["coreference resolution", "chunking"], "label": 0, "pronoun": "it", "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved." }
数据字段
所有拆分的数据字段相同。
plain_text
sentence: 一个string特征。pronoun: 一个string特征。candidates: 一个list的string特征。label: 一个分类标签,可能的值包括0(0),1(1)。
数据拆分
| name | train | test |
|---|---|---|
| plain_text | 1322 | 564 |
引用信息
请在使用此数据集时引用以下论文:
@inproceedings{rahman2012resolving, title={Resolving complex cases of definite pronouns: the winograd schema challenge}, author={Rahman, Altaf and Ng, Vincent}, booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning}, pages={777--789}, year={2012}, organization={Association for Computational Linguistics} }
贡献
感谢@thomwolf, @lewtun, @patrickvonplaten 添加此数据集。



