pmc-oa-markdown-embeddings

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/casperhansen/pmc-oa-markdown-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

PubMed Central (PMC) 开放获取Markdown数据集是一个包含文本及其生成的嵌入的子集。这些嵌入是使用Qwen3-Embedding-4B模型创建的，具有2560维。数据集包含了全文的嵌入，并且排除了超过32k标记的较长的例子。数据集的许可证为cc。

PubMed Central (PMC) Open Access Markdown Dataset is a subset containing texts and their generated embeddings. These embeddings are generated using the Qwen3-Embedding-4B model and have a dimensionality of 2560. The dataset includes embeddings of full texts, and excludes lengthy examples exceeding 32k tokens. The dataset is licensed under CC.

创建时间：

2025-07-10

原始信息汇总

PubMed Central (PMC) Open Access in Markdown (With Embeddings) 数据集概述

数据集基本信息

名称: PubMed Central (PMC) Open Access in Markdown (With Embeddings)
许可证: CC
下载大小: 18,652,745,837 字节
数据集大小: 34,325,117,835 字节
训练集样本数: 516,317
训练集大小: 34,325,117,835 字节

数据集特征

文本特征:
- 名称: text
- 类型: string
嵌入特征:
- 名称: embed
- 类型: sequence of float64

数据集来源与处理

来源: casperhansen/pmc-oa-markdown 的子集
嵌入生成工具: Qwen3-Embedding-4B
嵌入维度: 2560
嵌入范围: 全文嵌入
处理说明: 丢弃了超过32k tokens的数千个样本
生成成本: 8xH100 GPU运行7小时（约100美元）

搜集汇总

数据集介绍

构建方式

该数据集源自PubMed Central（PMC）开放获取文献的Markdown文本子集，通过先进的自然语言处理技术构建而成。研究人员采用Qwen3-Embedding-4B模型对全文进行深度语义编码，生成2560维的高质量嵌入向量。在预处理阶段，超过32k标记的长文本被合理剔除，最终保留了516,317条经过严格筛选的样本，整个嵌入过程耗费8块H100显卡约7小时的计算资源。

特点

作为生物医学文献挖掘领域的重要资源，该数据集兼具文本内容与嵌入向量的双重优势。每条样本包含原始Markdown格式的学术论文全文及其对应的密集向量表示，嵌入维度高达2560，能够精准捕捉复杂的语义信息。特别值得注意的是，所有文本均来自PMC开放获取库，确保了数据的权威性和可追溯性，为生物医学文本表示学习提供了理想的研究素材。

使用方法

该数据集特别适合用于生物医学信息检索、文献相似度计算等下游任务。研究人员可直接加载预生成的嵌入向量，快速构建基于语义的检索系统或聚类分析模型。对于需要定制化嵌入的场景，原始Markdown文本保留了完整的学术论文结构，支持进一步的文本处理和分析。在使用过程中，建议注意32k标记的长度限制，必要时可对长文本进行分段处理以获得最佳效果。

背景与挑战

背景概述

PubMed Central (PMC) Open Access in Markdown (With Embeddings)数据集是生物医学文献处理领域的重要资源，由研究人员casperhansen基于开放获取的PMC文献构建。该数据集将PMC文献转换为Markdown格式，并利用Qwen3-Embedding-4B模型生成高维文本嵌入，嵌入维度高达2560。作为生物医学文本挖掘的基础设施，该数据集为文献检索、知识发现和自然语言处理研究提供了结构化数据支持。其构建过程涉及大规模文献处理与深度学习技术，反映了当前生物医学信息学与人工智能的交叉研究趋势。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，生物医学文献具有专业术语密集、语义复杂度高的特点，传统嵌入模型难以准确捕捉其深层语义关系；在构建过程层面，处理海量全文数据时面临计算资源消耗大（需8块H100显卡运行7小时）、长文本截断（超过32k token的文献被丢弃）等技术难题。如何平衡嵌入质量与计算效率，以及如何处理超长专业文献的完整语义表征，仍是待解决的关键问题。

常用场景

经典使用场景

在生物医学文献挖掘领域，pmc-oa-markdown-embeddings数据集通过预生成的文本嵌入向量，为研究者提供了高效的语义检索基础。该数据集特别适合用于构建知识图谱或文献推荐系统，研究人员可直接利用2560维的高质量嵌入特征，避免从零开始训练模型的算力消耗。嵌入维度与Qwen3-Embedding-4B模型的深度语义理解能力相结合，使得跨文献的相似性计算达到学术级精度。

实际应用

在医疗信息系统中，该数据集支持智能文献检索平台的快速部署，临床医生可通过语义查询精准获取相关病例报告。制药企业利用嵌入特征加速药物重定位研究，通过文献相似性分析发现潜在适应症。学术出版机构则基于此构建自动化文献分类系统，极大提升了海量开放获取论文的组织效率。

衍生相关工作

该数据集催生了多个生物医学AI创新项目，包括基于嵌入的跨模态检索系统BioSemantic和文献知识图谱构建工具PMC-KG。开源社区以此为基础开发了PubMed-Explorer交互式检索平台，而微软研究院发表的BioBERT-Embedding论文中将其作为基准数据集，验证了新模型在长文本嵌入任务上的优越性。

以上内容由遇见数据集搜集并总结生成