five

MESH

收藏
github2024-10-11 更新2024-10-12 收录
下载链接:
https://github.com/LucaCappelletti94/mesh
下载链接
链接失效反馈
官方服务:
资源简介:
MESH数据集是一个包含化学品和药物信息的集合,主要关注化学品和药物类别,并整合了PubChem数据库的SMILES和InChI键。数据集包括化学品信息、描述符信息、化学品与描述符之间的关系、MESH数据集的有向无环图(DAG)以及元数据。

The MESH dataset is a collection of information on chemicals and pharmaceuticals, which primarily focuses on chemical and drug categories, and integrates SMILES and InChI keys from the PubChem database. The dataset includes chemical information, descriptor information, the relationships between chemicals and descriptors, the directed acyclic graph (DAG) of the MESH dataset, as well as metadata.
创建时间:
2024-10-10
原始信息汇总

MESH 数据集概述

数据集简介

MESH 数据集是一个用于化学和药物分类的数据集,主要关注 MESH 数据集 中的化学品和药物类别,并整合了 PubChem 数据库 的 SMILES 和 InChI 键。

数据集结构

预构建的 MESH 数据集的结构如下:

mesh_chemistry_2024.tar.gz ├── chemicals.csv ├── descriptors.csv ├── chemicals_to_descriptors.csv ├── mesh_dag.csv ├── metadata.json

各文件的描述:

  • chemicals.csv:包含化学品和药物的信息。
  • descriptors.csv:包含描述符的信息。
  • chemicals_to_descriptors.csv:包含化学品和描述符之间的关系。
  • mesh_dag.csv:包含 MESH 数据集的有向无环图(DAG)。
  • metadata.json:包含数据集的元数据。

数据集版本统计

以下是不同版本的 MESH 数据集的统计信息:

版本名称 节点数量 边数量 化学品数量 描述符数量
MESH 2024 334220 367694 323679 10542
MESH 2023 332999 365801 322591 10409
MESH 2022 330106 364653 319739 10367
MESH 2021 328884 363505 318391 10325

数据集生成

用户可以使用 Dataset 类生成自定义的 MESH 数据集,通过 DatasetSettingsChemicalsAndDrugsSettings 类指定数据集的配置。

示例代码

python from mesh.settings import DatasetSettings, ChemicalsAndDrugsSettings from mesh import Dataset

def build_mesh_chemistry_2024() -> Dataset: cad: ChemicalsAndDrugsSettings = ( ChemicalsAndDrugsSettings() .include_all_submodules() .include_smiles() .include_inchi_keys() ) settings = ( DatasetSettings(version=2024) .include_chemicals_and_drugs(cad) .set_verbose(True) ) dataset = Dataset.build(settings) return dataset

if name == "main": mesh_chemistry_2024: Dataset = build_mesh_chemistry_2024() mesh_chemistry_2024.save("mesh_chemistry_2024", tarball=False)

生成的 CSV 文件

生成的 CSV 文件将保存在 mesh_chemistry_2024 目录中,包含以下文件:

  • chemicals.csv:包含化学品和药物的信息。
  • descriptors.csv:包含描述符的信息。
  • chemicals_to_descriptors.csv:包含化学品和描述符之间的关系。
  • mesh_dag.csv:包含 MESH 数据集的有向无环图(DAG)。
  • metadata.json:包含数据集的元数据。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建MESH数据集的过程中,研究者们聚焦于化学品和药物类别,通过整合PubChem数据库中的SMILES和InChI键,实现了数据的高效集成。该数据集的构建不仅依赖于预先构建的数据集,还提供了自定义数据集生成的功能。用户可以通过设定特定的参数,如包含SMILES和InChI键,来定制符合自身研究需求的MESH数据集。这一过程通过Python包中的`DatasetSettings`和`ChemicalsAndDrugsSettings`类来实现,确保了数据集的灵活性和可扩展性。
特点
MESH数据集的显著特点在于其专注于化学品和药物的详细信息,并结合了PubChem数据库中的SMILES和InChI键,提供了丰富的化学结构信息。此外,数据集的结构化设计,包括化学品、描述符、化学品与描述符之间的关系、MESH的有向无环图(DAG)以及元数据,使得数据集在化学信息学和药物研究中具有广泛的应用潜力。数据集的版本化管理,如MESH 2024、2023等,确保了数据的时效性和可追溯性。
使用方法
使用MESH数据集时,用户可以通过Python包提供的功能,选择下载预构建的数据集或生成自定义的数据集。预构建的数据集可以通过`Dataset.load`方法直接加载,而自定义数据集则通过`Dataset.build`方法,结合`DatasetSettings`和`ChemicalsAndDrugsSettings`类进行构建。数据集加载后,用户可以利用`Dataset`类进行数据操作和分析。此外,数据集的CSV文件结构清晰,便于进一步的数据处理和分析,如化学品的唯一标识符、名称、化合物ID、物质ID、SMILES和InChI键等信息,为研究提供了详尽的数据支持。
背景与挑战
背景概述
MESH数据集,由美国国家医学图书馆(NLM)维护,是一个广泛应用于生物医学领域的分类系统。该数据集自创建以来,已成为生物医学研究中的重要资源,特别是在化学品和药物分类方面。MESH数据集的核心研究问题涉及如何有效分类和检索生物医学文献中的化学品和药物信息。通过整合PubChem数据库的SMILES和InChI键,MESH数据集不仅提升了化学品和药物的识别精度,还增强了其在生物医学研究中的应用价值。
当前挑战
MESH数据集在构建过程中面临多项挑战。首先,数据集的构建需要整合来自多个数据库的信息,如PubChem,这要求高度的数据处理和整合能力。其次,化学品和药物的分类涉及复杂的化学结构和属性,如何准确地映射这些信息到MESH分类系统中是一大挑战。此外,随着新化学品和药物的不断发现,数据集的更新和维护也是一个持续的挑战,确保数据集的时效性和准确性是当前研究的重点。
常用场景
经典使用场景
在药物化学领域,MESH数据集的经典使用场景主要集中在化学品和药物的分类与描述上。通过整合PubChem数据库的SMILES和InChI键,该数据集能够提供详细的化学结构信息,帮助研究人员进行药物分子的结构分析和性质预测。此外,数据集中的Directed Acyclic Graph (DAG)结构为化学品和药物的层次分类提供了强大的工具,使得复杂的化学品分类任务变得更为系统化和高效。
衍生相关工作
MESH数据集的发布和应用催生了多项相关研究工作。首先,基于该数据集的化学品分类和检索算法得到了广泛研究,推动了化学信息学的发展。其次,结合PubChem数据库的SMILES和InChI键,研究人员开发了多种化学品结构预测和性质分析工具,进一步丰富了药物化学的研究手段。此外,MESH数据集的DAG结构也被应用于其他领域的层次分类问题,如生物信息学中的基因分类和生态学中的物种分类,展示了其在多学科交叉研究中的广泛应用潜力。
数据集最近研究
最新研究方向
在药物化学领域,MESH数据集的最新研究方向主要集中在化学物质和药物的分类与描述上。通过整合PubChem数据库中的SMILES和InChI键,研究者能够更精确地分析和识别化学物质的结构与性质。此外,利用预构建的MESH数据集,研究人员可以高效地进行大规模数据分析,探索化学物质与药物之间的复杂关系,从而为新药研发和现有药物的优化提供有力支持。这一研究方向不仅推动了药物化学的前沿发展,还为相关领域的科学研究提供了丰富的数据资源和分析工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作