taln-ls2n/pubmed
收藏Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taln-ls2n/pubmed
下载链接
链接失效反馈官方服务:
资源简介:
Schutz 2008 PubMed数据集包含1320篇带有全文和作者分配关键词的文章。数据集的关键词被分类为PRMU(Present-Reordered-Mixed-Unseen)方案。文本预处理使用spacy进行分词,并使用nltk的Porters stemmer进行词干提取。数据集的内容包括文档的唯一标识符、标题、正文、关键词列表以及关键词的PRMU分类。
提供机构:
taln-ls2n
原始信息汇总
Schutz 2008 PubMed dataset for keyphrase extraction
数据集概述
- 语言: 英语 (en)
- 许可证: 未知
- 多语言性: 单语种
- 大小: 1k<n<10k 文档
- 任务类别: 文本生成
- 标签: 关键词生成, 关键词提取, 文本挖掘
数据集内容
- 文档数量: 1320篇
- 平均每文档关键词数量: 5.40
- 关键词分类:
- Present (P): 84.54%
- Reordered (R): 9.14%
- Mixed (M): 3.84%
- Unseen (U): 2.47%
数据字段
- id: 文档唯一标识符
- title: 文档标题
- text: 全文(不含标题)
- keyphrases: 参考关键词列表
- prmu: 参考关键词的<u>P</u>resent-<u>R</u>eordered-<u>M</u>ixed-<u>U</u>nseen分类列表
数据预处理
- 分词: 使用spacy (en_core_web_sm模型),特殊规则避免分割带有连字符的单词
- 词干提取: 使用nltk中的Porters stemmer实现



