Medex

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/medexanon/Medex

下载链接

链接失效反馈

官方服务：

资源简介：

Medex数据集是包含从小分子和基因/蛋白质中提取的事实的大型数据集，这些事实是从大量的PubMed文章中提取的。每个事实都附带有一个与小分子和基因/蛋白质相关联的标识符。对于小分子，标识符是SMILES字符串；对于基因/蛋白质，标识符是NCBI基因ID。

创建时间：

2025-05-16

原始信息汇总

Medex数据集概述

数据集基本信息

名称: Medex
初始版本: 首次发布
领域: 生物学、化学、医学
类型: 合成数据

数据集内容

数据来源: PubMed文章
主要内容: 关于小分子和基因/蛋白质的事实信息
数据特征:
- 每条事实包含小分子或基因/蛋白质的关联标识符
  - 小分子: SMILES字符串
  - 基因/蛋白质: NCBI Gene ID

数据结构

字段:
- PMID (large_string)
- DOI (large_string)
- entity (large_string)
- fact (large_string)
- MolInfo (结构体)
  - SMILES (large_string)
- GeneInfo (结构体)
  - NCBI_Gene_ID (int64)
  - protein_refseq_id (large_string)
  - gene_refseq_id (large_string)

数据集规模

训练集:
- 样本数量: 36,308,777
- 数据大小: 10,493,923,722字节
下载大小: 3,386,319,503字节

更新计划

未来将从PubMed提取更多事实并上传扩展版本

搜集汇总

数据集介绍

构建方式

Medex数据集通过系统化处理大量PubMed文献构建而成，专注于提取小分子与基因/蛋白质之间的关联事实。数据采集过程采用结构化提取技术，每条记录均包含文献标识符(PMID/DOI)、实体名称、事实描述以及分子信息(SMILES字符串)或基因信息(NCBI Gene ID等生物标识符)。该数据集当前版本涵盖3600余万条训练样本，数据规模达10GB级别，采用分布式文件存储格式以支持高效访问。

特点

作为跨生物学与化学领域的专业数据集，Medex的突出特点体现在其多模态数据结构设计。分子层面采用标准SMILES字符串表征化学结构，基因层面整合NCBI Gene ID、RefSeq蛋白和基因编号等权威生物数据库标识符。数据记录通过文献元数据(PMID/DOI)实现溯源，每条事实陈述均与特定生物分子实体精确关联，为生物医学关系挖掘提供高精度语料。数据规模持续动态扩展的设计机制，进一步增强了其在快速发展的生物医学研究领域的适用性。

使用方法

该数据集主要服务于生物医学文本挖掘与分子关系发现研究，典型应用场景包括生物分子相互作用预测、药物靶点关系推理等。研究人员可通过HuggingFace平台直接加载数据集，利用内置的SMILES解析器和基因标识符转换工具进行数据预处理。对于机器学习任务，建议结合分子指纹生成算法处理SMILES数据，并利用NCBI数据库API对基因标识符进行功能注释，以充分发挥该数据集在生物医学知识发现方面的价值。

背景与挑战

背景概述

Medex数据集是生物医学领域的一项重要资源，由科研团队从大量PubMed文献中提取小分子与基因/蛋白质相关事实构建而成。该数据集于近期首次发布，旨在整合散落在学术文献中的生物医学实体关系，为计算生物学和药物发现研究提供结构化知识支持。其核心价值在于将非结构化的文献信息转化为机器可读的数据形式，通过包含SMILES字符串和NCBI Gene ID等标准化标识符，实现了生物医学实体关系的精准表征。这一工作显著降低了研究人员从海量文献中手动提取信息的成本，对推动生物医学知识挖掘的自动化进程具有深远意义。

当前挑战

Medex数据集面临的挑战主要体现在两个维度：在解决领域问题层面，生物医学实体关系的复杂性导致事实提取的准确性难以保证，不同文献中对同一实体的描述差异增加了数据归一化难度；在构建过程层面，PubMed文献的规模庞大且持续增长，需要设计高效的自动化信息抽取流程，同时确保处理异构数据时的鲁棒性。小分子与基因相互作用的多维性特征，要求标注系统能够捕捉上下文语义的细微差别，这对自然语言处理技术提出了较高要求。如何平衡数据覆盖广度与标注质量，成为数据集迭代过程中需要持续优化的关键问题。

常用场景

经典使用场景

在生物医学文献挖掘领域，Medex数据集因其整合了PubMed文献中的小分子与基因/蛋白质关联事实而成为经典资源。研究者通常利用其结构化的SMILES字符串和NCBI Gene ID，开展药物-靶标相互作用预测研究，通过文本挖掘技术从海量文献中提取生化实体间的功能关系，为计算生物学提供高质量的标注数据。

解决学术问题

该数据集有效解决了生物医学知识碎片化问题，通过标准化标识符（如SMILES和Gene ID）桥接文本信息与结构化数据库。其核心价值在于为药物重定位、基因功能注释等研究提供自动化知识抽取基础，显著降低了人工标注成本，并克服了传统方法中实体链接模糊性的技术瓶颈。

衍生相关工作

基于Medex的实体关系数据，学术界衍生出多个生物医学知识图谱构建项目，如BioKG和DRKG。其数据格式启发了ChemBERTa等预训练模型的改进，而分子-基因关联事实则被用于增强DrugBank等数据库的覆盖范围，推动了生物医学自然语言处理领域的基准测试体系发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集