five

taln-ls2n/pubmed

收藏
Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/pubmed
下载链接
链接失效反馈
官方服务:
资源简介:
Schutz 2008 PubMed数据集包含1320篇带有全文和作者分配关键词的文章。数据集的关键词被分类为PRMU(Present-Reordered-Mixed-Unseen)方案。文本预处理使用spacy进行分词,并使用nltk的Porters stemmer进行词干提取。数据集的内容包括文档的唯一标识符、标题、正文、关键词列表以及关键词的PRMU分类。
提供机构:
taln-ls2n
原始信息汇总

Schutz 2008 PubMed dataset for keyphrase extraction

数据集概述

  • 语言: 英语 (en)
  • 许可证: 未知
  • 多语言性: 单语种
  • 大小: 1k<n<10k 文档
  • 任务类别: 文本生成
  • 标签: 关键词生成, 关键词提取, 文本挖掘

数据集内容

  • 文档数量: 1320篇
  • 平均每文档关键词数量: 5.40
  • 关键词分类:
    • Present (P): 84.54%
    • Reordered (R): 9.14%
    • Mixed (M): 3.84%
    • Unseen (U): 2.47%

数据字段

  • id: 文档唯一标识符
  • title: 文档标题
  • text: 全文(不含标题)
  • keyphrases: 参考关键词列表
  • prmu: 参考关键词的<u>P</u>resent-<u>R</u>eordered-<u>M</u>ixed-<u>U</u>nseen分类列表

数据预处理

  • 分词: 使用spacy (en_core_web_sm模型),特殊规则避免分割带有连字符的单词
  • 词干提取: 使用nltk中的Porters stemmer实现
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作