pubmed-embeddings

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/aaekay/pubmed-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

PubMed Embedding Vectors 数据集包含从本地 PubMed 标题和摘要文本生成的嵌入向量，专为生物医学检索和最近邻研究设计。数据集不包含 PubMed 标题、摘要或全文，而是提供 PMIDs、嵌入向量、哈希值和轻量级元数据，以便研究人员可以与其授权的 PubMed 镜像或官方 NCBI/PubMed 服务进行关联。数据集提供两种配置：neuml_pubmedbert_base_embeddings（维度 768，行数 28,460,827）和 qwen3_embedding_0_6b（维度 1024，行数 28,460,827）。主要字段包括 PMID（PubMed 标识符）、embedding（固定大小的嵌入向量）、text_sha256（用于嵌入的本地标题+摘要文本的 SHA-256 哈希）、pub_year 和 pub_month（出版日期元数据）、以及嵌入输入令牌元数据。数据集适用于生物医学信息检索、嵌入模型评估等任务，采用 cc-by-4.0 许可，语言为英语。

The PubMed Embedding Vectors dataset contains embedding vectors generated from local PubMed title and abstract text, designed for biomedical retrieval and nearest neighbor research. The dataset does not include PubMed titles, abstracts, or full text, but provides PMIDs, embedding vectors, hash values, and lightweight metadata so researchers can link them to their authorized PubMed mirror or official NCBI/PubMed services. The dataset offers two configurations: neuml_pubmedbert_base_embeddings (dimension 768, rows 28,460,827) and qwen3_embedding_0_6b (dimension 1024, rows 28,460,827). Key fields include PMID (PubMed identifier), embedding (fixed-size embedding vector), text_sha256 (SHA-256 hash of the local title+abstract text used for embedding), pub_year and pub_month (publication date metadata), and embedding input token metadata. The dataset is suitable for tasks such as biomedical information retrieval and embedding model evaluation, licensed under cc-by-4.0, with the language being English.

创建时间：

2026-05-08

原始信息汇总

数据集概述

PubMed Embedding Vectors 是一个面向生物医学检索和最近邻研究的嵌入向量数据集。该数据集由 PubMed 的标题和摘要文本生成，但不包含原文内容，仅提供嵌入向量及相关元数据。

基本信息

许可证：CC-BY-4.0
语言：英语
数据集规模：10M < n < 100M（约 2846 万条记录）

数据配置（Configs）

配置名称	模型	向量维度	记录数	Qdrant 集合名称
`neuml_pubmedbert_base_embeddings`	`NeuML/pubmedbert-base-embeddings`	768	28,460,827	`pubmed_emb_neuml_pubmedbert_base_embeddings_ddbc790c`
`qwen3_embedding_0_6b`	`Qwen/Qwen3-Embedding-0.6B`	1024	28,460,827	`pubmed_emb_qwen_qwen3_embedding_0_6b_cdca07b0`

字段说明

pmid：PubMed 唯一标识符
embedding：对应配置的固定长度嵌入向量
text_sha256：嵌入所使用标题+摘要文本的 SHA-256 哈希值（如有）
pub_year, pub_month：文献出版日期元数据（如有）
raw_token_count, used_token_count, was_truncated：嵌入输入 token 元数据（如有）

数据来源与版权说明

原始数据来源于本地 PubMed 基线/更新镜像
由于 PubMed 摘要可能受第三方版权保护，数据集不包含文章标题、摘要或全文
嵌入数据集以 CC-BY-4.0 发布；上游 PubMed 记录和嵌入模型仍受各自条款约束

使用示例（Python）

python from datasets import load_dataset

repo_id = "YOUR_NAMESPACE/pubmed-embeddings" ds = load_dataset(repo_id, "qwen3_embedding_0_6b", split="train", streaming=True) row = next(iter(ds)) print(row["pmid"], len(row["embedding"]))

通过 PMID 检索 PubMed 详情： python pmid = row["pmid"] url = f"https://pubmed.ncbi.nlm.nih.gov/{pmid}/"

元数据文件

metadata/manifest.json：导出元数据、分片校验和及源集合详情
metadata/schema.json：公共模式定义

搜集汇总

数据集介绍

构建方式

该数据集的构建依托于本地PubMed标题与摘要文本，通过先进的嵌入模型（如NeuML/pubmedbert-base-embeddings和Qwen/Qwen3-Embedding-0.6B）生成固定维度的向量表示。为规避第三方版权风险，数据集中刻意剔除了原始标题、摘要及全文内容，仅保留PubMed标识符（PMID）、嵌入向量、文本哈希值及轻量级元数据（如发表年份、月份、令牌计数等）。最终以Parquet格式存储，并提供两种配置：分别对应768维和1024维的嵌入向量，每份包含约2846万条记录，便于研究者结合自身授权的PubMed镜像或NCBI官方服务进行关联分析。

特点

本数据集的核心优势在于其规模宏大且格式统一，拥有超过2800万条PubMed文献的嵌入向量，覆盖两种主流生物医学嵌入模型，维度分别为768和1024。其设计注重合规性与灵活性：通过SHA-256哈希值确保文本溯源的可验证性，同时避免了直接分发受版权保护的原文；元数据字段（如令牌使用量和截断标志）为模型性能评估提供了细粒度的观测窗口。此外，数据以流式加载方式呈现，支持大样本高效迭代，特别适合大规模生物医学检索和最近邻研究场景。

使用方法

使用该数据集时，推荐通过Hugging Face的`datasets`库进行加载，例如指定配置`qwen3_embedding_0_6b`并以流式模式读取训练集。每条记录的核心字段为`pmid`和`embedding`，前者可作为键值关联PubMed官方资源（如通过URL `https://pubmed.ncbi.nlm.nih.gov/{pmid}/`获取引用细节）。用户需自行确保对PubMed数据的使用权限，而本嵌入数据集基于CC-BY-4.0许可发布，可用于学术检索、向量相似度计算或作为其他下游模型的输入特征。

背景与挑战

背景概述

随着生物医学文献的指数级增长，如何高效地从海量文本中检索语义相关的信息成为自然语言处理与信息检索领域的核心挑战。PubMed作为全球最大的生物医学文献数据库，其标题与摘要文本蕴含了丰富的医学知识，但原始文本的版权限制与隐私合规问题阻碍了大规模共享。为突破这一瓶颈，研究人员于近期构建了PubMed Embedding Vectors数据集，由Qdrant等机构主导，采用NeuML/pubmedbert-base-embeddings与Qwen3-Embedding-0.6B等前沿嵌入模型，将超过2800万条PubMed记录（通过唯一的PMID标识）转化为低维稠密向量。该数据集在保留语义信息的同时避免了原始文本的传播风险，为生物医学领域的语义检索、论文推荐与知识发现提供了标准化的嵌入基准，推动了近似最近邻搜索技术在医疗信息学中的落地应用。

当前挑战

该数据集所解决的领域核心问题是生物医学文献检索中的语义鸿沟，即传统基于关键词的检索方法无法捕捉同义与上下文关联，而嵌入向量能够以连续空间表征文本语义，支持更精准的相似度匹配。构建过程中面临多重挑战：首先，需严格遵循美国国立医学图书馆（NLM）的版权规定，在数据发布时剔除标题、摘要和全文，仅保留PMID、嵌入向量及轻量级元数据，确保合法合规。其次，文献文本长度不一，需处理输入截断与token计数问题，并通过SHA-256哈希记录文本指纹以追溯数据源。此外，数据规模达到千万级别，对存储、分片索引以及流式加载的性能优化提出了高要求，数据集因此采用了Parquet格式与Qdrant向量数据库存储，兼顾存取效率与扩展性。

常用场景

经典使用场景

PubMed Embeddings数据集为生物医学文本的语义表示学习提供了标准化的向量化资源。其经典使用场景涵盖基于嵌入向量的近似最近邻检索，研究人员可通过计算查询文本与预生成嵌入的余弦相似度，快速定位相关文献。此外，该数据集可无缝对接Qdrant等向量数据库，支持大规模生物医学文献的语义搜索与聚类分析，赋能知识图谱构建中的实体链接与关系抽取任务。

实际应用

在实际应用中，该数据集支撑了临床决策支持系统的语义检索模块，使医生能通过自然语言描述快速获取相关临床证据。制药企业利用嵌入向量进行靶点-药物关联发现，加速候选化合物的筛选流程。此外，生物医学文献管理工具（如文献管家与综述撰写辅助平台）常基于该数据集构建推荐引擎，依据用户阅读历史推荐语义相近的论文，提升科研效率与知识整合质量。

衍生相关工作

基于PubMed Embeddings衍生了多项经典工作，例如利用PubmedBERT嵌入构建的生物医学问答系统（如BioASQ相关项目）和文献去重工具。Qwen3-Embedding适配的多模态检索框架被用于整合生物医学图像与文本描述。此外，社区贡献的基于该数据集的微调模型（如用于疾病预测与基因功能注释的轻量级分类器）进一步拓展了其应用边界，形成了从向量生成到下游任务落地的完整技术生态。

以上内容由遇见数据集搜集并总结生成