five

DESCGEN

收藏
arXiv2021-06-17 更新2024-07-18 收录
下载链接:
https://github.com/swj0419/DESCGEN
下载链接
链接失效反馈
官方服务:
资源简介:
DESCGEN是一个用于生成实体摘要描述的远监督数据集,包含37K条来自维基百科和Fandom的实体描述,每条描述平均关联9个证据文档。数据集通过结合实体链接和超链接到维基百科和Fandom实体页面的方式,提供了高质量的远监督。DESCGEN旨在解决描述新出现实体的挑战,尤其是在信息分散且风格多样的多源信息中。数据集的应用领域包括实体链接和问答系统,旨在通过自动生成实体描述来提高下游任务的性能。

DESCGEN is a distant supervision dataset for generating entity summary descriptions. It contains 37K entity descriptions sourced from Wikipedia and Fandom, with each description linked to an average of 9 evidence documents. It provides high-quality distant supervision by integrating entity linking and hyperlinks to Wikipedia and Fandom entity pages. DESCGEN is designed to tackle the challenge of generating descriptions for emerging entities, especially in multi-source information that is both fragmented and stylistically diverse. The dataset has applications in entity linking and question answering systems, with the objective of enhancing the performance of downstream tasks via automatically generated entity descriptions.
提供机构:
华盛顿大学计算机科学与工程学院
创建时间:
2021-06-10
原始信息汇总

DESCGEN 数据集

数据集概述

DESCGEN 数据集是为 ACL 2021 论文《DESCGEN: A Distantly Supervised Dataset for Generating Abstractive Entity Descriptions》准备的数据。

数据文件

  • entity2context:包含用于编写描述的所有源文档,键是实体名称,值是提及该实体的文档列表。
  • entity2summary_train:包含训练实体的维基摘要。
  • entity2summary_dev_distant:包含开发实体的维基摘要。
  • entity2summary_dev_verified:包含开发实体的人工编写摘要。类似地,entity2summary_test_distant 和 entity2summary_test_verified 也包含测试实体的相应摘要。
搜集汇总
背景与挑战
背景概述
DESCGEN是一个用于生成抽象实体描述的远监督数据集,源自ACL 2021论文。它包含实体上下文文档和多种摘要数据(如维基摘要和人工验证摘要),支持训练和评估实体描述生成模型。数据集通过Google Drive公开提供,适用于自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作