awesome-chemistry-datasets

github2023-12-08 更新2024-05-31 收录

下载链接：

https://github.com/kjappelbaum/awesome-chemistry-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

化学领域机器学习的数据集概览，包含多个化学相关的数据集，如BC5CDR、BioCreative V等，用于文本和数据挖掘。

An overview of datasets for machine learning in the field of chemistry, including multiple chemistry-related datasets such as BC5CDR, BioCreative V, etc., used for text and data mining.

创建时间：

2023-02-11

原始信息汇总

数据集概述

文本数据集

BC5CDR: 包含1500篇PubMed文章，标注了4409种化学物质、5818种疾病和3116种化学-疾病相互作用。
BioCreative V: 包含1500篇PubMed文章，标注了4409种化学物质、5818种疾病和3116种化学-疾病相互作用。
BioRxiv XML: 提供bioRxiv文章的全文，用于文本和数据挖掘。
ChemTables: 包含788个化学专利表格，标注了内容类型，用于语义分类。
Elsevier Corpus: 包含40,001篇开放获取的CC-BY文章，跨学科研究支持NLP和ML研究。
Europe PMC: 提供超过500万篇文章的全文和补充信息。
IUPAC Gold Book: 化学术语数据库。
LibreText: 开放获取的化学教科书。
MedRxiv XML: 提供MedRxiv文章的全文，用于文本和数据挖掘。
NLM literature archive: 包含生命科学、医学和医疗保健领域的书籍、文档和文章。
OpenStax: 提供免费教科书，包括化学2e，CC-BY 4.0许可。
PubChemSTM: 包含281,000对化学结构和文本。
PubMed central: 提供免费全文档案。
PubMed: 提供摘要和外部链接。
PubMedQA: 使用摘要回答研究问题，包含1,000个专家标记的实例。
S2ORC: 包含8110万篇英语学术论文，CC BY-NC 4.0许可。

结构数据集

COCONUT: 自然产物存储、搜索和分析的开放源项目。
Crystallography Open Database: 开放获取的晶体结构数据库，包括有机、无机、金属有机化合物和矿物。
Enamine HTS collection: 包含1,930,980种多样性筛选化合物。
GDB: 根据简单规则枚举的分子数据库。
GNPS: 专注于自然产物的质谱数据库。
MoNA: 包含已知化合物的真实和预测质谱。
nCov-Group Data Repository: 包含数百万化合物的SMILES、指纹、描述符和图像。
nmrshiftdb2: 有机结构和核磁共振(NMR)谱数据库。
zinc20: 为深度对接加速虚拟筛选准备的ZINC20库。
zinc22: 商业可用化合物，用于虚拟筛选。

分子活性预测基准数据集

MPCD: 分子活性预测基准，包括低样本量和窄支架抑制剂数据集(LSSNS)和更高样本量和混合支架抑制剂数据集(HSSMS)。
MoleculeACE: 评估机器学习模型在活动悬崖化合物上的预测性能的基准。

ML结构-属性基准数据集

ACNet: 活动悬崖预测基准，包含400,000对匹配分子对(MMPs)。
Aquasoldb: 九个开放源代码数据集的水溶性数据集。
BigSolDB: 包含830种独特分子和138种独特溶剂的分子溶解度数据。
BindingDB: 分子识别数据库，包含260万个数据点。
ChEBI-20: 包含33,010对分子-描述的数据集。
ESol: 常见有机小分子的水溶性数据。
FreeSolv: 小分子水合自由能的实验和计算数据。
Harvard OPV: 实验光伏数据和相应的量子化学计算。
Hydrogen Storage Materials Database: 氢存储材料的数据库。
ILThermo: 纯离子液体及其混合物的的热力学和传输特性。
Leffingwell Odor Dataset: 包含3523种分子和专家标记的气味描述符。
Lipophilicty: 实验结果的辛醇/水分配系数(logD at pH 7.4)。
MD simulated monomer properties: 410种单体的MD模拟性质。
MoleculeNet: 包含多个数据集的基准套件。
oechem: 包含3,774,118条记录，涉及689种属性。
Papyrus: 用于生物活性预测的大规模精选数据集。
Photoswitch Dataset: 精选的405种光开关分子数据集。
QM Datasets: 包含多个量子化学数据集。
SolProp: 包含100万个溶剂/溶质COSMO-RS计算和10,145个实验溶剂化自由能。
SOMAS: 小分子溶解度的实验和计算数据。
Therapeutic Data Commons: 包含小分子和生物制剂的ML任务。
ThermoML Archive: 实验热物理和热化学属性数据。
LIT-PCBA: 包含15个目标集，7761个活性分子和382,674个独特非活性分子的数据集。

目标识别数据

Open Targets: 使用人类遗传和基因组数据进行系统药物目标识别和优先级排序的大型资源。
Probes & Drugs Portal: 化学生物学的交互式开放数据资源。

药理学、ADME和代谢

SIDER dataset: 药物副作用资源。
Cell Effective Permeability (Caco-2) dataset: 通过Caco-2细胞系模拟药物通过肠组织的吸收。
Clinical Trials: 包含所有临床试验记录的ZIP文件。
Drug–Drug–Interaction (DDI): 包含药物-药物相互作用的MedLine摘要和文档。
Drug Indications Database (DID): 结构化的药物-指示关系数据集。
EPA CompTox: 包含化学品、毒性和暴露信息的资源。
Guide to PHARMACOLOGY: 专家策划的配体-活性-目标关系资源。
KD-DTI: 药物-目标相互作用三元组数据集。
KEGG PATHWAY Database(KEGG): 从分子信息理解生物系统的高级功能和效用的数据库资源。
LOTUS: 结构-生物体对的关系数据集。
MetXBioDB Metabolite Biotransformations: 生物转化反应和代谢物信息的综合集合。
ONSIDES: 从FDA结构化产品标签中提取的不良药物反应资源。
**PAMPA Permeability and NCAS

搜集汇总

数据集介绍

构建方式

awesome-chemistry-datasets 数据集的构建基于广泛的化学领域文献和公开资源，涵盖了从文本数据集到分子结构数据的多种类型。数据来源包括 PubMed、BioRxiv、MedRxiv 等学术文献平台，以及 PubChem、ChEMBL 等化学数据库。数据集的构建过程注重多样性和代表性，涵盖了化学、生物学、药物设计等多个子领域，确保了数据的广泛适用性和科学价值。

使用方法

使用 awesome-chemistry-datasets 数据集时，用户可以根据具体的研究需求选择相应的子集。例如，文本数据集可用于自然语言处理任务，如命名实体识别和文本分类；分子结构数据集可用于分子建模和虚拟筛选；反应数据集可用于化学反应预测和机理研究。数据集提供了详细的文档和示例代码，帮助用户快速上手并应用于实际研究中。

背景与挑战

背景概述

awesome-chemistry-datasets 是一个专注于化学领域的综合性数据集集合，涵盖了从文本数据到分子结构、活性预测、药理代谢等多个子领域。该数据集由多个研究机构和开源社区共同维护，旨在为化学信息学、药物发现和材料科学等领域的研究人员提供高质量的数据资源。其核心研究问题包括化学实体识别、分子活性预测、药物靶点识别等，极大地推动了化学与人工智能交叉领域的发展。自创建以来，该数据集已成为化学信息学和机器学习研究的重要参考，广泛应用于学术研究和工业实践中。

当前挑战

awesome-chemistry-datasets 在解决化学领域的复杂问题时面临多重挑战。首先，化学数据的多样性和复杂性使得数据标注和标准化成为一大难题，尤其是在分子结构、活性预测和药物代谢等领域。其次，数据集的构建过程中需要处理海量的文献、专利和实验数据，如何高效地提取、整合和验证这些数据是一个巨大的技术挑战。此外，化学数据的动态性和快速更新要求数据集必须保持持续更新，以确保其时效性和准确性。这些挑战不仅考验了数据处理技术，也对化学信息学和机器学习的算法提出了更高的要求。

常用场景

经典使用场景

awesome-chemistry-datasets 数据集在化学信息学和药物发现领域具有广泛的应用。其经典使用场景包括化学实体识别、药物-疾病关系挖掘、分子活性预测以及化学反应的文本挖掘。例如，BC5CDR 数据集常用于化学和疾病的命名实体识别任务，而 PubChemSTM 则用于化学结构与文本的配对研究。这些数据集为研究人员提供了丰富的标注数据，支持从分子结构到药物设计的全流程研究。

解决学术问题

该数据集解决了化学信息学和药物发现中的多个关键学术问题。例如，BC5CDR 和 BioCreative V 数据集通过提供大量标注的化学和疾病实体，支持化学-疾病关系的自动识别和挖掘。MoleculeNet 和 MPCD 数据集则为分子活性预测提供了标准化的基准，帮助研究人员评估和优化机器学习模型的性能。此外，USPTO 数据集通过文本挖掘技术从专利中提取化学反应，为化学反应预测和逆合成分析提供了重要数据支持。

实际应用

在实际应用中，awesome-chemistry-datasets 数据集被广泛用于药物发现、化学信息学和材料科学领域。例如，BindingDB 和 ChEMBL 数据集支持药物靶点识别和药物设计，而 ZINC20 和 ZINC22 数据集则用于虚拟筛选和化合物库的构建。此外，Open Targets 和 Guide to PHARMACOLOGY 数据集为系统药物靶点识别和优先级排序提供了重要数据支持，推动了精准医学的发展。

数据集最近研究