five

Medex

收藏
Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/medexanon/Medex
下载链接
链接失效反馈
官方服务:
资源简介:
Medex数据集是包含从小分子和基因/蛋白质中提取的事实的大型数据集,这些事实是从大量的PubMed文章中提取的。每个事实都附带有一个与小分子和基因/蛋白质相关联的标识符。对于小分子,标识符是SMILES字符串;对于基因/蛋白质,标识符是NCBI基因ID。
创建时间:
2025-05-16
原始信息汇总

Medex数据集概述

数据集基本信息

  • 名称: Medex
  • 初始版本: 首次发布
  • 领域: 生物学、化学、医学
  • 类型: 合成数据

数据集内容

  • 数据来源: PubMed文章
  • 主要内容: 关于小分子和基因/蛋白质的事实信息
  • 数据特征:
    • 每条事实包含小分子或基因/蛋白质的关联标识符
      • 小分子: SMILES字符串
      • 基因/蛋白质: NCBI Gene ID

数据结构

  • 字段:
    • PMID (large_string)
    • DOI (large_string)
    • entity (large_string)
    • fact (large_string)
    • MolInfo (结构体)
      • SMILES (large_string)
    • GeneInfo (结构体)
      • NCBI_Gene_ID (int64)
      • protein_refseq_id (large_string)
      • gene_refseq_id (large_string)

数据集规模

  • 训练集:
    • 样本数量: 36,308,777
    • 数据大小: 10,493,923,722字节
  • 下载大小: 3,386,319,503字节

更新计划

  • 未来将从PubMed提取更多事实并上传扩展版本
搜集汇总
数据集介绍
main_image_url
构建方式
Medex数据集通过系统化处理大量PubMed文献构建而成,专注于提取小分子与基因/蛋白质之间的关联事实。数据采集过程采用结构化提取技术,每条记录均包含文献标识符(PMID/DOI)、实体名称、事实描述以及分子信息(SMILES字符串)或基因信息(NCBI Gene ID等生物标识符)。该数据集当前版本涵盖3600余万条训练样本,数据规模达10GB级别,采用分布式文件存储格式以支持高效访问。
特点
作为跨生物学与化学领域的专业数据集,Medex的突出特点体现在其多模态数据结构设计。分子层面采用标准SMILES字符串表征化学结构,基因层面整合NCBI Gene ID、RefSeq蛋白和基因编号等权威生物数据库标识符。数据记录通过文献元数据(PMID/DOI)实现溯源,每条事实陈述均与特定生物分子实体精确关联,为生物医学关系挖掘提供高精度语料。数据规模持续动态扩展的设计机制,进一步增强了其在快速发展的生物医学研究领域的适用性。
使用方法
该数据集主要服务于生物医学文本挖掘与分子关系发现研究,典型应用场景包括生物分子相互作用预测、药物靶点关系推理等。研究人员可通过HuggingFace平台直接加载数据集,利用内置的SMILES解析器和基因标识符转换工具进行数据预处理。对于机器学习任务,建议结合分子指纹生成算法处理SMILES数据,并利用NCBI数据库API对基因标识符进行功能注释,以充分发挥该数据集在生物医学知识发现方面的价值。
背景与挑战
背景概述
Medex数据集是生物医学领域的一项重要资源,由科研团队从大量PubMed文献中提取小分子与基因/蛋白质相关事实构建而成。该数据集于近期首次发布,旨在整合散落在学术文献中的生物医学实体关系,为计算生物学和药物发现研究提供结构化知识支持。其核心价值在于将非结构化的文献信息转化为机器可读的数据形式,通过包含SMILES字符串和NCBI Gene ID等标准化标识符,实现了生物医学实体关系的精准表征。这一工作显著降低了研究人员从海量文献中手动提取信息的成本,对推动生物医学知识挖掘的自动化进程具有深远意义。
当前挑战
Medex数据集面临的挑战主要体现在两个维度:在解决领域问题层面,生物医学实体关系的复杂性导致事实提取的准确性难以保证,不同文献中对同一实体的描述差异增加了数据归一化难度;在构建过程层面,PubMed文献的规模庞大且持续增长,需要设计高效的自动化信息抽取流程,同时确保处理异构数据时的鲁棒性。小分子与基因相互作用的多维性特征,要求标注系统能够捕捉上下文语义的细微差别,这对自然语言处理技术提出了较高要求。如何平衡数据覆盖广度与标注质量,成为数据集迭代过程中需要持续优化的关键问题。
常用场景
经典使用场景
在生物医学文献挖掘领域,Medex数据集因其整合了PubMed文献中的小分子与基因/蛋白质关联事实而成为经典资源。研究者通常利用其结构化的SMILES字符串和NCBI Gene ID,开展药物-靶标相互作用预测研究,通过文本挖掘技术从海量文献中提取生化实体间的功能关系,为计算生物学提供高质量的标注数据。
解决学术问题
该数据集有效解决了生物医学知识碎片化问题,通过标准化标识符(如SMILES和Gene ID)桥接文本信息与结构化数据库。其核心价值在于为药物重定位、基因功能注释等研究提供自动化知识抽取基础,显著降低了人工标注成本,并克服了传统方法中实体链接模糊性的技术瓶颈。
衍生相关工作
基于Medex的实体关系数据,学术界衍生出多个生物医学知识图谱构建项目,如BioKG和DRKG。其数据格式启发了ChemBERTa等预训练模型的改进,而分子-基因关联事实则被用于增强DrugBank等数据库的覆盖范围,推动了生物医学自然语言处理领域的基准测试体系发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作