DESCGEN
收藏arXiv2021-06-17 更新2024-07-18 收录
下载链接:
https://github.com/swj0419/DESCGEN
下载链接
链接失效反馈官方服务:
资源简介:
DESCGEN是一个用于生成实体摘要描述的远监督数据集,包含37K条来自维基百科和Fandom的实体描述,每条描述平均关联9个证据文档。数据集通过结合实体链接和超链接到维基百科和Fandom实体页面的方式,提供了高质量的远监督。DESCGEN旨在解决描述新出现实体的挑战,尤其是在信息分散且风格多样的多源信息中。数据集的应用领域包括实体链接和问答系统,旨在通过自动生成实体描述来提高下游任务的性能。
提供机构:
华盛顿大学计算机科学与工程学院
创建时间:
2021-06-10
原始信息汇总
DESCGEN 数据集
数据集概述
DESCGEN 数据集是为 ACL 2021 论文《DESCGEN: A Distantly Supervised Dataset for Generating Abstractive Entity Descriptions》准备的数据。
数据文件
- entity2context:包含用于编写描述的所有源文档,键是实体名称,值是提及该实体的文档列表。
- entity2summary_train:包含训练实体的维基摘要。
- entity2summary_dev_distant:包含开发实体的维基摘要。
- entity2summary_dev_verified:包含开发实体的人工编写摘要。类似地,entity2summary_test_distant 和 entity2summary_test_verified 也包含测试实体的相应摘要。
搜集汇总
背景与挑战
背景概述
DESCGEN是一个用于生成抽象实体描述的远监督数据集,源自ACL 2021论文。它包含实体上下文文档和多种摘要数据(如维基摘要和人工验证摘要),支持训练和评估实体描述生成模型。数据集通过Google Drive公开提供,适用于自然语言处理研究。
以上内容由遇见数据集搜集并总结生成



