five

pmc-oa-markdown-embeddings

收藏
Hugging Face2025-07-22 更新2025-07-23 收录
下载链接:
https://huggingface.co/datasets/casperhansen/pmc-oa-markdown-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
PubMed Central (PMC) 开放获取Markdown数据集是一个包含文本及其生成的嵌入的子集。这些嵌入是使用Qwen3-Embedding-4B模型创建的,具有2560维。数据集包含了全文的嵌入,并且排除了超过32k标记的较长的例子。数据集的许可证为cc。

PubMed Central (PMC) Open Access Markdown Dataset is a subset containing texts and their generated embeddings. These embeddings are generated using the Qwen3-Embedding-4B model and have a dimensionality of 2560. The dataset includes embeddings of full texts, and excludes lengthy examples exceeding 32k tokens. The dataset is licensed under CC.
创建时间:
2025-07-10
原始信息汇总

PubMed Central (PMC) Open Access in Markdown (With Embeddings) 数据集概述

数据集基本信息

  • 名称: PubMed Central (PMC) Open Access in Markdown (With Embeddings)
  • 许可证: CC
  • 下载大小: 18,652,745,837 字节
  • 数据集大小: 34,325,117,835 字节
  • 训练集样本数: 516,317
  • 训练集大小: 34,325,117,835 字节

数据集特征

  • 文本特征:
    • 名称: text
    • 类型: string
  • 嵌入特征:
    • 名称: embed
    • 类型: sequence of float64

数据集来源与处理

  • 来源: casperhansen/pmc-oa-markdown 的子集
  • 嵌入生成工具: Qwen3-Embedding-4B
  • 嵌入维度: 2560
  • 嵌入范围: 全文嵌入
  • 处理说明: 丢弃了超过32k tokens的数千个样本
  • 生成成本: 8xH100 GPU运行7小时(约100美元)
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自PubMed Central(PMC)开放获取文献的Markdown文本子集,通过先进的自然语言处理技术构建而成。研究人员采用Qwen3-Embedding-4B模型对全文进行深度语义编码,生成2560维的高质量嵌入向量。在预处理阶段,超过32k标记的长文本被合理剔除,最终保留了516,317条经过严格筛选的样本,整个嵌入过程耗费8块H100显卡约7小时的计算资源。
特点
作为生物医学文献挖掘领域的重要资源,该数据集兼具文本内容与嵌入向量的双重优势。每条样本包含原始Markdown格式的学术论文全文及其对应的密集向量表示,嵌入维度高达2560,能够精准捕捉复杂的语义信息。特别值得注意的是,所有文本均来自PMC开放获取库,确保了数据的权威性和可追溯性,为生物医学文本表示学习提供了理想的研究素材。
使用方法
该数据集特别适合用于生物医学信息检索、文献相似度计算等下游任务。研究人员可直接加载预生成的嵌入向量,快速构建基于语义的检索系统或聚类分析模型。对于需要定制化嵌入的场景,原始Markdown文本保留了完整的学术论文结构,支持进一步的文本处理和分析。在使用过程中,建议注意32k标记的长度限制,必要时可对长文本进行分段处理以获得最佳效果。
背景与挑战
背景概述
PubMed Central (PMC) Open Access in Markdown (With Embeddings)数据集是生物医学文献处理领域的重要资源,由研究人员casperhansen基于开放获取的PMC文献构建。该数据集将PMC文献转换为Markdown格式,并利用Qwen3-Embedding-4B模型生成高维文本嵌入,嵌入维度高达2560。作为生物医学文本挖掘的基础设施,该数据集为文献检索、知识发现和自然语言处理研究提供了结构化数据支持。其构建过程涉及大规模文献处理与深度学习技术,反映了当前生物医学信息学与人工智能的交叉研究趋势。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,生物医学文献具有专业术语密集、语义复杂度高的特点,传统嵌入模型难以准确捕捉其深层语义关系;在构建过程层面,处理海量全文数据时面临计算资源消耗大(需8块H100显卡运行7小时)、长文本截断(超过32k token的文献被丢弃)等技术难题。如何平衡嵌入质量与计算效率,以及如何处理超长专业文献的完整语义表征,仍是待解决的关键问题。
常用场景
经典使用场景
在生物医学文献挖掘领域,pmc-oa-markdown-embeddings数据集通过预生成的文本嵌入向量,为研究者提供了高效的语义检索基础。该数据集特别适合用于构建知识图谱或文献推荐系统,研究人员可直接利用2560维的高质量嵌入特征,避免从零开始训练模型的算力消耗。嵌入维度与Qwen3-Embedding-4B模型的深度语义理解能力相结合,使得跨文献的相似性计算达到学术级精度。
实际应用
在医疗信息系统中,该数据集支持智能文献检索平台的快速部署,临床医生可通过语义查询精准获取相关病例报告。制药企业利用嵌入特征加速药物重定位研究,通过文献相似性分析发现潜在适应症。学术出版机构则基于此构建自动化文献分类系统,极大提升了海量开放获取论文的组织效率。
衍生相关工作
该数据集催生了多个生物医学AI创新项目,包括基于嵌入的跨模态检索系统BioSemantic和文献知识图谱构建工具PMC-KG。开源社区以此为基础开发了PubMed-Explorer交互式检索平台,而微软研究院发表的BioBERT-Embedding论文中将其作为基准数据集,验证了新模型在长文本嵌入任务上的优越性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作