MESH
收藏MESH 数据集概述
数据集简介
MESH 数据集是一个用于化学和药物分类的数据集,主要关注 MESH 数据集 中的化学品和药物类别,并整合了 PubChem 数据库 的 SMILES 和 InChI 键。
数据集结构
预构建的 MESH 数据集的结构如下:
mesh_chemistry_2024.tar.gz ├── chemicals.csv ├── descriptors.csv ├── chemicals_to_descriptors.csv ├── mesh_dag.csv ├── metadata.json
各文件的描述:
chemicals.csv:包含化学品和药物的信息。descriptors.csv:包含描述符的信息。chemicals_to_descriptors.csv:包含化学品和描述符之间的关系。mesh_dag.csv:包含 MESH 数据集的有向无环图(DAG)。metadata.json:包含数据集的元数据。
数据集版本统计
以下是不同版本的 MESH 数据集的统计信息:
| 版本名称 | 节点数量 | 边数量 | 化学品数量 | 描述符数量 |
|---|---|---|---|---|
| MESH 2024 | 334220 | 367694 | 323679 | 10542 |
| MESH 2023 | 332999 | 365801 | 322591 | 10409 |
| MESH 2022 | 330106 | 364653 | 319739 | 10367 |
| MESH 2021 | 328884 | 363505 | 318391 | 10325 |
数据集生成
用户可以使用 Dataset 类生成自定义的 MESH 数据集,通过 DatasetSettings 和 ChemicalsAndDrugsSettings 类指定数据集的配置。
示例代码
python from mesh.settings import DatasetSettings, ChemicalsAndDrugsSettings from mesh import Dataset
def build_mesh_chemistry_2024() -> Dataset: cad: ChemicalsAndDrugsSettings = ( ChemicalsAndDrugsSettings() .include_all_submodules() .include_smiles() .include_inchi_keys() ) settings = ( DatasetSettings(version=2024) .include_chemicals_and_drugs(cad) .set_verbose(True) ) dataset = Dataset.build(settings) return dataset
if name == "main": mesh_chemistry_2024: Dataset = build_mesh_chemistry_2024() mesh_chemistry_2024.save("mesh_chemistry_2024", tarball=False)
生成的 CSV 文件
生成的 CSV 文件将保存在 mesh_chemistry_2024 目录中,包含以下文件:
chemicals.csv:包含化学品和药物的信息。descriptors.csv:包含描述符的信息。chemicals_to_descriptors.csv:包含化学品和描述符之间的关系。mesh_dag.csv:包含 MESH 数据集的有向无环图(DAG)。metadata.json:包含数据集的元数据。




