five

taln-ls2n/kptimes

收藏
Hugging Face2024-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/kptimes
下载链接
链接失效反馈
官方服务:
资源简介:
KPTimes是一个用于关键词提取和生成模型基准测试的数据集。该数据集包含290K篇英文新闻文章,来源于《纽约时报》和《日本时报》。关键词由编辑以半自动方式标注,即编辑修订算法提出的关键词集并提供额外的关键词。数据集还使用了PRMU方案对参考关键词进行分类。文本预处理使用spacy进行,词干提取使用nltk的Porters stemmer实现。数据集包含训练、验证和测试集,每个集都有详细的统计信息。数据字段包括id、title、abstract、keyphrases、prmu、date和categories。
提供机构:
taln-ls2n
原始信息汇总

KPTimes Benchmark Dataset for Keyphrase Generation

概述

KPTimes是一个用于评估关键短语提取和生成模型的基准数据集。该数据集包含290K篇英文新闻文章,来源于《纽约时报》和《日本时报》。关键短语由编辑在半自动化过程中进行标注,即编辑修订算法提出的关键短语集合并提供额外的关键短语。

数据集内容与统计

  • 数据集大小: 290K篇新闻文章
  • 语言: 英语
  • 数据集划分:
    • 训练集: 259,923篇文档
    • 验证集: 10,000篇文档
    • 测试集: 20,000篇文档
  • 关键短语统计:
    • 平均每篇文档关键短语数: 约5个
    • 关键短语分类: 存在、重排、混合、未见(PRMU)

数据集字段

  • id: 文档唯一标识符
  • title: 文档标题
  • abstract: 文档摘要
  • keyphrases: 参考关键短语列表
  • prmu: 参考关键短语的PRMU分类列表
  • date: 发布日期(YYYY/MM/DD)
  • categories: 文章分类(1或2个分类)

数据处理

  • 文本预处理: 使用spacy进行分词,特别规则避免分割带有连字符的单词。
  • 词干提取: 使用nltk中的Porter词干提取器。

引用

  • Gallina et al., 2019: KPTimes: A Large-Scale Dataset for Keyphrase Generation on News Documents.
  • Boudin and Gallina, 2021: Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作