five

justinphan3110/vi_pubmed

收藏
Hugging Face2022-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/justinphan3110/vi_pubmed
下载链接
链接失效反馈
官方服务:
资源简介:
PubMed数据集由美国国家医学图书馆(NLM)制作,包含MEDLINE/PubMed的引用记录,以XML格式提供,并转换为JSON格式以便使用。数据集每年12月发布一次基线版本,并每日更新,包含新增、修订和删除的引用记录。数据集中包含文章的标题、摘要、作者列表、化学物质列表等信息,适用于文本生成、文本分类、填充掩码等任务。数据集为单语种(英语),未提供明确的数据分割。
提供机构:
justinphan3110
原始信息汇总

数据集概述

数据集名称

  • 名称: ViPubMed

数据集摘要

  • 摘要: NLM每年12月发布MEDLINE/PubMed引文记录的基准集,以XML格式提供下载。每日更新文件包括新、修订和删除的引文。

支持的任务

  • 任务:
    • 文本生成
    • 填充掩码
    • 文本分类
  • 具体任务:
    • 语言建模
    • 掩码语言建模
    • 文本评分
    • 主题分类

语言

  • 语言:
    • 英语
    • 越南语

数据集结构

  • 数据实例:
    • 包含字段如PMID、完成日期、参考文献数量、修订日期、文章标题、作者列表、语言、化学列表等。
  • 数据字段:
    • 主要字段包括作者列表、摘要文本、文章标题、化学列表、参考文献数量。
  • 数据分割:
    • 无特定分割,数据集整体提供。

数据集创建

  • 源数据:
    • 数据来源于NLM,具体收集和标准化信息见FAQ页面
  • 许可证:
    • 其他

数据集大小

  • 大小:
    • 10M<n<100M

多语言性

  • 多语言性:
    • 单语种

数据集来源

  • 来源:
    • 原始数据
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作