taln-ls2n/pubmed

Name: taln-ls2n/pubmed
Creator: taln-ls2n
Published: 2022-10-26 19:14:46
License: 暂无描述

Hugging Face2022-10-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taln-ls2n/pubmed

下载链接

链接失效反馈

官方服务：

资源简介：

Schutz 2008 PubMed数据集包含1320篇带有全文和作者分配关键词的文章。数据集的关键词被分类为PRMU（Present-Reordered-Mixed-Unseen）方案。文本预处理使用spacy进行分词，并使用nltk的Porters stemmer进行词干提取。数据集的内容包括文档的唯一标识符、标题、正文、关键词列表以及关键词的PRMU分类。

提供机构：

taln-ls2n

原始信息汇总

Schutz 2008 PubMed dataset for keyphrase extraction

数据集概述

语言: 英语 (en)
许可证: 未知
多语言性: 单语种
大小: 1k<n<10k 文档
任务类别: 文本生成
标签: 关键词生成, 关键词提取, 文本挖掘

数据集内容

文档数量: 1320篇
平均每文档关键词数量: 5.40
关键词分类:
- Present (P): 84.54%
- Reordered (R): 9.14%
- Mixed (M): 3.84%
- Unseen (U): 2.47%

数据字段

id: 文档唯一标识符
title: 文档标题
text: 全文（不含标题）
keyphrases: 参考关键词列表
prmu: 参考关键词的Present-Reordered-Mixed-Unseen分类列表

数据预处理

分词: 使用spacy (en_core_web_sm模型)，特殊规则避免分割带有连字符的单词
词干提取: 使用nltk中的Porters stemmer实现

5,000+

优质数据集

54 个

任务类型

进入经典数据集