five

WIKICREM

收藏
arXiv2019-10-14 更新2024-06-21 收录
下载链接:
https://ora.ox.ac.uk/objects/uuid:c83e94bb-7584-41a1-aef9-85b0e764d9e3
下载链接
链接失效反馈
官方服务:
资源简介:
WIKICREM是由牛津大学等机构创建的大规模无监督代词消歧数据集,包含2438897个实例。该数据集通过在英文维基百科中查找至少出现两次的人名,并屏蔽其中一个非首次出现的人名来生成。数据集旨在通过提供大量挑战性实例,帮助训练数据饥饿的神经模型,以解决代词消歧问题。此外,数据集还确保至少有一个其他不同的人名出现在屏蔽的人名之前,以增加任务的挑战性。WIKICREM的应用领域主要集中在自然语言处理中的代词消歧任务,旨在提高模型在复杂语境下的理解和推理能力。

WIKICREM is a large-scale unsupervised pronoun resolution dataset developed by the University of Oxford and other institutions, containing 2,438,897 instances. It is constructed by identifying personal names that appear at least twice in English Wikipedia, and masking one of their non-first occurrences. The dataset aims to provide a large number of challenging instances to assist in training data-hungry neural models for solving pronoun resolution tasks. Additionally, it guarantees that at least one other distinct personal name appears before the masked name to increase the task's challenge. Its main application fields focus on the pronoun resolution task in natural language processing, with the goal of enhancing models' understanding and reasoning capabilities in complex contextual scenarios.
提供机构:
牛津大学
创建时间:
2019-08-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作