Medex
收藏Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/medexanon/Medex
下载链接
链接失效反馈官方服务:
资源简介:
Medex数据集是包含从小分子和基因/蛋白质中提取的事实的大型数据集,这些事实是从大量的PubMed文章中提取的。每个事实都附带有一个与小分子和基因/蛋白质相关联的标识符。对于小分子,标识符是SMILES字符串;对于基因/蛋白质,标识符是NCBI基因ID。
创建时间:
2025-05-16
原始信息汇总
Medex数据集概述
数据集基本信息
- 名称: Medex
- 初始版本: 首次发布
- 领域: 生物学、化学、医学
- 类型: 合成数据
数据集内容
- 数据来源: PubMed文章
- 主要内容: 关于小分子和基因/蛋白质的事实信息
- 数据特征:
- 每条事实包含小分子或基因/蛋白质的关联标识符
- 小分子: SMILES字符串
- 基因/蛋白质: NCBI Gene ID
- 每条事实包含小分子或基因/蛋白质的关联标识符
数据结构
- 字段:
- PMID (large_string)
- DOI (large_string)
- entity (large_string)
- fact (large_string)
- MolInfo (结构体)
- SMILES (large_string)
- GeneInfo (结构体)
- NCBI_Gene_ID (int64)
- protein_refseq_id (large_string)
- gene_refseq_id (large_string)
数据集规模
- 训练集:
- 样本数量: 36,308,777
- 数据大小: 10,493,923,722字节
- 下载大小: 3,386,319,503字节
更新计划
- 未来将从PubMed提取更多事实并上传扩展版本
搜集汇总
数据集介绍

构建方式
Medex数据集通过系统化处理大量PubMed文献构建而成,专注于提取小分子与基因/蛋白质之间的关联事实。数据采集过程采用结构化提取技术,每条记录均包含文献标识符(PMID/DOI)、实体名称、事实描述以及分子信息(SMILES字符串)或基因信息(NCBI Gene ID等生物标识符)。该数据集当前版本涵盖3600余万条训练样本,数据规模达10GB级别,采用分布式文件存储格式以支持高效访问。
特点
作为跨生物学与化学领域的专业数据集,Medex的突出特点体现在其多模态数据结构设计。分子层面采用标准SMILES字符串表征化学结构,基因层面整合NCBI Gene ID、RefSeq蛋白和基因编号等权威生物数据库标识符。数据记录通过文献元数据(PMID/DOI)实现溯源,每条事实陈述均与特定生物分子实体精确关联,为生物医学关系挖掘提供高精度语料。数据规模持续动态扩展的设计机制,进一步增强了其在快速发展的生物医学研究领域的适用性。
使用方法
该数据集主要服务于生物医学文本挖掘与分子关系发现研究,典型应用场景包括生物分子相互作用预测、药物靶点关系推理等。研究人员可通过HuggingFace平台直接加载数据集,利用内置的SMILES解析器和基因标识符转换工具进行数据预处理。对于机器学习任务,建议结合分子指纹生成算法处理SMILES数据,并利用NCBI数据库API对基因标识符进行功能注释,以充分发挥该数据集在生物医学知识发现方面的价值。
背景与挑战
背景概述
Medex数据集是生物医学领域的一项重要资源,由科研团队从大量PubMed文献中提取小分子与基因/蛋白质相关事实构建而成。该数据集于近期首次发布,旨在整合散落在学术文献中的生物医学实体关系,为计算生物学和药物发现研究提供结构化知识支持。其核心价值在于将非结构化的文献信息转化为机器可读的数据形式,通过包含SMILES字符串和NCBI Gene ID等标准化标识符,实现了生物医学实体关系的精准表征。这一工作显著降低了研究人员从海量文献中手动提取信息的成本,对推动生物医学知识挖掘的自动化进程具有深远意义。
当前挑战
Medex数据集面临的挑战主要体现在两个维度:在解决领域问题层面,生物医学实体关系的复杂性导致事实提取的准确性难以保证,不同文献中对同一实体的描述差异增加了数据归一化难度;在构建过程层面,PubMed文献的规模庞大且持续增长,需要设计高效的自动化信息抽取流程,同时确保处理异构数据时的鲁棒性。小分子与基因相互作用的多维性特征,要求标注系统能够捕捉上下文语义的细微差别,这对自然语言处理技术提出了较高要求。如何平衡数据覆盖广度与标注质量,成为数据集迭代过程中需要持续优化的关键问题。
常用场景
经典使用场景
在生物医学文献挖掘领域,Medex数据集因其整合了PubMed文献中的小分子与基因/蛋白质关联事实而成为经典资源。研究者通常利用其结构化的SMILES字符串和NCBI Gene ID,开展药物-靶标相互作用预测研究,通过文本挖掘技术从海量文献中提取生化实体间的功能关系,为计算生物学提供高质量的标注数据。
解决学术问题
该数据集有效解决了生物医学知识碎片化问题,通过标准化标识符(如SMILES和Gene ID)桥接文本信息与结构化数据库。其核心价值在于为药物重定位、基因功能注释等研究提供自动化知识抽取基础,显著降低了人工标注成本,并克服了传统方法中实体链接模糊性的技术瓶颈。
衍生相关工作
基于Medex的实体关系数据,学术界衍生出多个生物医学知识图谱构建项目,如BioKG和DRKG。其数据格式启发了ChemBERTa等预训练模型的改进,而分子-基因关联事实则被用于增强DrugBank等数据库的覆盖范围,推动了生物医学自然语言处理领域的基准测试体系发展。
以上内容由遇见数据集搜集并总结生成



