community-datasets/definite_pronoun_resolution
收藏Definite Pronoun Resolution Dataset 数据集概述
数据集描述
数据集摘要
该数据集由30名学生从一位作者的本科课程中收集。这些句子对涵盖了从真实事件(如伊朗计划攻击沙特驻美国大使)到电影中的事件/角色(如蝙蝠侠)和纯虚构情景,主要反映了90年代初出生的美国孩子所感知的流行文化。每个标注的示例包含四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选先行词,第四行包含正确的先行词。如果目标代词在句子中出现多次,则其第一次出现是需要解析的。
支持的任务和排行榜
语言
数据集结构
数据实例
plain_text
一个训练集的示例如下: json { "candidates": ["coreference resolution", "chunking"], "label": 0, "pronoun": "it", "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved." }
数据字段
所有拆分中的数据字段相同。
plain_text
sentence: 字符串特征。pronoun: 字符串特征。candidates: 字符串列表特征。label: 分类标签,可能的值包括0和1。
数据拆分
| name | train | test |
|---|---|---|
| plain_text | 1322 | 564 |
数据集创建
策划理由
源数据
初始数据收集和规范化
源语言生产者是谁?
标注
标注过程
标注者是谁?
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
引用信息
@inproceedings{rahman2012resolving, title={Resolving complex cases of definite pronouns: the winograd schema challenge}, author={Rahman, Altaf and Ng, Vincent}, booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning}, pages={777--789}, year={2012}, organization={Association for Computational Linguistics} }
贡献
感谢 @thomwolf, @lewtun, @patrickvonplaten 添加此数据集。




