justinphan3110/vi_pubmed
收藏Hugging Face2022-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/justinphan3110/vi_pubmed
下载链接
链接失效反馈官方服务:
资源简介:
PubMed数据集由美国国家医学图书馆(NLM)制作,包含MEDLINE/PubMed的引用记录,以XML格式提供,并转换为JSON格式以便使用。数据集每年12月发布一次基线版本,并每日更新,包含新增、修订和删除的引用记录。数据集中包含文章的标题、摘要、作者列表、化学物质列表等信息,适用于文本生成、文本分类、填充掩码等任务。数据集为单语种(英语),未提供明确的数据分割。
提供机构:
justinphan3110
原始信息汇总
数据集概述
数据集名称
- 名称: ViPubMed
数据集摘要
- 摘要: NLM每年12月发布MEDLINE/PubMed引文记录的基准集,以XML格式提供下载。每日更新文件包括新、修订和删除的引文。
支持的任务
- 任务:
- 文本生成
- 填充掩码
- 文本分类
- 具体任务:
- 语言建模
- 掩码语言建模
- 文本评分
- 主题分类
语言
- 语言:
- 英语
- 越南语
数据集结构
- 数据实例:
- 包含字段如PMID、完成日期、参考文献数量、修订日期、文章标题、作者列表、语言、化学列表等。
- 数据字段:
- 主要字段包括作者列表、摘要文本、文章标题、化学列表、参考文献数量。
- 数据分割:
- 无特定分割,数据集整体提供。
数据集创建
- 源数据:
- 数据来源于NLM,具体收集和标准化信息见FAQ页面。
- 许可证:
- 其他
数据集大小
- 大小:
- 10M<n<100M
多语言性
- 多语言性:
- 单语种
数据集来源
- 来源:
- 原始数据



