taln-ls2n/kpbiomed

Name: taln-ls2n/kpbiomed
Creator: taln-ls2n
Published: 2022-12-01 10:52:09
License: 暂无描述

Hugging Face2022-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taln-ls2n/kpbiomed

下载链接

链接失效反馈

官方服务：

资源简介：

KP-Biomed是一个大规模生物医学关键词生成数据集，包含560万篇带有作者分配关键词的摘要。数据集的关键词按照PRMU（Present-Reordered-Mixed-Unseen）方案进行分类，并使用spacy进行文本预处理（如分词）和nltk进行词干提取。数据集分为训练集（小、中、大）、验证集和测试集，每个部分都包含文档数量、平均关键词数量以及关键词的PRMU分类比例。数据字段包括文档的唯一标识符、标题、摘要、关键词列表、MeSH术语列表（如果可用）、PRMU分类列表、作者列表和出版年份。

提供机构：

taln-ls2n

原始信息汇总

KP-Biomed 数据集概述

基本信息

语言: 英语 (en)
许可证: CC-BY-NC-4.0
多语言性: 单语种
任务类别: 文本挖掘, 文本生成
任务ID: 关键词生成, 关键词提取
大小类别: 10万<n<100万
美观名称: KP-Biomed

数据集描述

内容: 包含560万篇摘要，每篇摘要附有作者分配的关键词。
数据处理: 使用spacy进行文本预处理（分词），并应用Porter的词干提取器进行关键词匹配。

数据集内容

数据分割: 分为小训练集、中训练集、大训练集、验证集和测试集。
文档数量及关键词统计:
- 小训练集: 50万文档，平均每文档5.24个关键词。
- 中训练集: 200万文档，平均每文档5.24个关键词。
- 大训练集: 560万文档，平均每文档5.23个关键词。
- 验证集: 2万文档，平均每文档5.25个关键词。
- 测试集: 2万文档，平均每文档5.22个关键词。
关键词分类统计: 包括“存在”、“重新排序”、“混合”和“未见”四种分类的百分比。

数据字段

id: 文档唯一标识符。
title: 文档标题。
abstract: 文档摘要。
keyphrases: 参考关键词列表。
mesh terms: 索引器分配的MeSH术语列表（约68%的文章包含）。
prmu: 参考关键词的“存在-重新排序-混合-未见”分类列表。
authors: 文章作者列表。
year: 出版年份。

注意: “存在”关键词（PRMU列中的“P”标签）按其在文本中出现的顺序排序（标题+正文）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集