five

DESCGEN

收藏
arXiv2021-06-17 更新2024-07-18 收录
下载链接:
https://github.com/swj0419/DESCGEN
下载链接
链接失效反馈
官方服务:
资源简介:
DESCGEN是一个用于生成实体摘要描述的远监督数据集,包含37K条来自维基百科和Fandom的实体描述,每条描述平均关联9个证据文档。数据集通过结合实体链接和超链接到维基百科和Fandom实体页面的方式,提供了高质量的远监督。DESCGEN旨在解决描述新出现实体的挑战,尤其是在信息分散且风格多样的多源信息中。数据集的应用领域包括实体链接和问答系统,旨在通过自动生成实体描述来提高下游任务的性能。
提供机构:
华盛顿大学计算机科学与工程学院
创建时间:
2021-06-10
原始信息汇总

DESCGEN 数据集

数据集概述

DESCGEN 数据集是为 ACL 2021 论文《DESCGEN: A Distantly Supervised Dataset for Generating Abstractive Entity Descriptions》准备的数据。

数据文件

  • entity2context:包含用于编写描述的所有源文档,键是实体名称,值是提及该实体的文档列表。
  • entity2summary_train:包含训练实体的维基摘要。
  • entity2summary_dev_distant:包含开发实体的维基摘要。
  • entity2summary_dev_verified:包含开发实体的人工编写摘要。类似地,entity2summary_test_distant 和 entity2summary_test_verified 也包含测试实体的相应摘要。
搜集汇总
背景与挑战
背景概述
DESCGEN是一个用于生成抽象实体描述的远监督数据集,源自ACL 2021论文。它包含实体上下文文档和多种摘要数据(如维基摘要和人工验证摘要),支持训练和评估实体描述生成模型。数据集通过Google Drive公开提供,适用于自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作