five

taln-ls2n/kp20k

收藏
Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/kp20k
下载链接
链接失效反馈
官方服务:
资源简介:
KP20k是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含570,809篇科学文章的摘要及其标题。数据集中的参考关键词按照PRMU方案进行分类,并提供了数据预处理和分词的信息。数据集分为训练集、测试集和验证集,每个部分都提供了文档数量、平均关键词数量以及PRMU分类的百分比。数据字段包括id、标题、摘要、关键词和PRMU分类。
提供机构:
taln-ls2n
原始信息汇总

KP20k Benchmark Dataset for Keyphrase Generation

概述

KP20k是一个用于基准测试关键短语提取和生成模型的数据集。该数据集包含570,809篇科学文章的摘要及其相关标题。

数据集详情

  • 语言: 英语
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 100K<n<1M
  • 任务类别: 文本生成
  • 标签: 关键短语生成, 关键短语提取, 文本挖掘

数据内容

  • 文档数量: 570,809
  • 数据分割:
    • 训练集: 530,809篇文档
    • 测试集: 20,000篇文档
    • 验证集: 20,000篇文档
  • 平均每文档关键短语数量: 约5.28
  • PRMU分类:
    • Present: 平均约58.26%
    • Reordered: 平均约10.90%
    • Mixed: 平均约17.27%
    • Unseen: 平均约13.56%

数据字段

  • id: 文档的唯一标识符
  • title: 文档标题
  • abstract: 文档摘要
  • keyphrases: 作者分配的关键短语列表
  • prmu: 参考关键短语的PRMU分类列表

数据处理

  • 文本预处理: 使用spacy进行分词,特殊规则避免分割带有连字符的单词。
  • 词干提取: 使用Porter的词干提取器。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作