five

ATLASBIOINFO/pubmed_embedding

收藏
Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ATLASBIOINFO/pubmed_embedding
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从PubMed数据集中生成的嵌入,嵌入是使用NeuML/pubmedbert-base-embedding模型生成的。每个嵌入以列表形式表示,并包含文章的标题、第一作者、PubMed ID、发布日期等元数据。数据集的结构如下:每个节点的唯一标识符为`node-{tpubmed}-{idx}`,其中`tpubmed`是PubMed ID,`idx`是条目的索引。元数据包括文章的标题、第一作者、PubMed ID、发布日期等。数据集的原始数据来源于https://huggingface.co/datasets/ncbi/pubmed。

该数据集包含从PubMed数据集中生成的嵌入,嵌入是使用NeuML/pubmedbert-base-embedding模型生成的。每个嵌入以列表形式表示,并包含文章的标题、第一作者、PubMed ID、发布日期等元数据。数据集的结构如下:每个节点的唯一标识符为`node-{tpubmed}-{idx}`,其中`tpubmed`是PubMed ID,`idx`是条目的索引。元数据包括文章的标题、第一作者、PubMed ID、发布日期等。数据集的原始数据来源于https://huggingface.co/datasets/ncbi/pubmed。
提供机构:
ATLASBIOINFO
原始信息汇总

数据集概述

基本信息

  • 名称: PubMed Embeddings Dataset
  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 英语
  • 标签: pubmed embedding
  • 大小类别: 100M<n<1B

数据集结构

  • 每行代表一个嵌入,格式如下: python node.id_ = f"node-{tpubmed}-{idx}" node.metadata["title"] = ttitle node.metadata["author"] = firstAuthor node.metadata["pubmed"] = tpubmed node.metadata["date"] = tdate node.metadata["key"] = tpubmed node.metadata["source"] = "Pubmed"

    • node.id_: 唯一标识符,格式为node-{tpubmed}-{idx}
    • node.metadata["title"]: PubMed文章标题
    • node.metadata["author"]: PubMed文章的第一作者
    • node.metadata["pubmed"]: PubMed文章ID
    • node.metadata["date"]: 文章发表日期
    • node.metadata["key"]: PubMed文章ID(与node.metadata["pubmed"]相同)
    • node.metadata["source"]: 数据来源,始终为"Pubmed"

使用方法

  • 加载: 使用首选的数据处理库或工具加载数据集
  • 访问: 通过上述定义的键访问每个嵌入的元数据

原始数据源

嵌入模型

  • 模型: NeuML/pubmedbert-base-embedding
  • 信息获取: 请参阅模型文档以了解更多关于模型及其性能的信息
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作