five

CheMixHub

收藏
arXiv2025-06-14 更新2025-06-19 收录
下载链接:
https://github.com/chemcognition-lab/chemixhub
下载链接
链接失效反馈
官方服务:
资源简介:
CheMixHub是一个全面评估分子混合物性质的基准数据集,包含11个化学混合物性质预测任务,从药物输送配方到电池电解质等,总计约50万个数据点,从7个公开可用的数据集中收集和整理。CheMixHub引入了各种数据分割技术来评估特定上下文下的泛化和模型鲁棒性,为开发化学混合物性质的预测模型奠定了基础。此外,我们还规划了深度学习模型在化学混合物建模空间,为社区建立了初始基准。这个数据集有可能加速化学混合物的发展,包括配方改革、优化和发现。

CheMixHub is a benchmark dataset for comprehensive evaluation of molecular mixture properties. It encompasses 11 chemical mixture property prediction tasks, spanning from drug delivery formulations to battery electrolytes, with approximately 500,000 data points in total collected and curated from 7 publicly available datasets. CheMixHub introduces various data splitting techniques to evaluate generalization and model robustness under specific contexts, laying a solid foundation for the development of predictive models for chemical mixture properties. Furthermore, we have delineated the modeling space of deep learning models for chemical mixtures and established an initial benchmark for the research community. This dataset holds the potential to accelerate advancements in chemical mixtures, including formulation reform, optimization and discovery.
提供机构:
多伦多大学, 加拿大; 人工智能向量研究所, 加拿大; 加拿大国家研究委员会清洁能源创新研究中心
创建时间:
2025-06-14
原始信息汇总

CheMixHub数据集概述

数据集简介

  • 名称:CheMixHub
  • 类型:化学混合物性质预测基准数据集
  • 领域:化学、材料科学、机器学习
  • 数据量:13个任务(包含2个大规模任务,116,896数据点)
  • 许可证:MIT

核心特点

  1. 标准化数据集
    • 整合7个公共数据集的11个任务
    • 新增2个ILThermo大规模任务
  2. 数据分割策略
    • 随机分割
    • 未见化学成分分割
    • 混合比例变化分割
    • 分布外上下文分割(如温度)
  3. 元数据标准
    • 每个数据集包含croissant.json标准化元数据文件

数据集来源

  1. Miscible Solvents(密度、混合焓等)
  2. ILThermo(离子液体混合物的传输性质)
  3. NIST Viscosity(有机混合物粘度)
  4. Drug Solubility(药物在溶剂混合物中的溶解度)
  5. Solid Polymer Electrolyte Ionic Conductivity(聚合物-盐混合物离子电导率)
  6. Olfactory Similarity(混合物感知相似性评分)
  7. Motor Octane Number(碳氢化合物和燃料的辛烷值)

数据结构

  • datasets/目录包含所有数据集
    • 每个子目录包含:
      • README.md(数据集说明)
      • croissant.json(元数据)
      • raw_data/(原始数据)
      • processed_data/(处理后的数据)
        • processed_data.csv(混合物级别数据)
        • compounds.csv(组分元数据)
        • 5折交叉验证分割数据

获取方式

  1. 克隆仓库: bash git clone https://github.com/chemcognition-lab/chemixhub.git

  2. 安装依赖: bash pip install -e .

引用格式

bibtex @article{chemixhub202X, title={{CheMixHub: Datasets and Benchmarks for Chemical Mixture Property Prediction}}, author={Ella Rajaonson, Mahyar Rajabi Kochi, Luis Martin Mejia Mendoza, Seyed Mohamad Moosavi, Benjamin Sanchez-Lengeling}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
CheMixHub数据集的构建基于7个公开可用数据集的精心筛选与整合,总计涵盖11项化学混合物性质预测任务,包含约50万个数据点。构建过程中,研究团队采用了标准化的数据处理流程,包括化学物种的SMILES字符串标准化、摩尔分数转换、温度缺失值的默认填充(298.15K)以及对数尺度转换等关键步骤。特别值得注意的是,该数据集保留了单组分数据点,并通过Croissant格式文件提供了详细的元数据描述,确保了数据的可访问性和机器学习应用的兼容性。
使用方法
使用CheMixHub数据集时,研究人员可通过GitHub仓库获取标准化格式的数据和基准代码。数据集支持多种建模策略:在分子表示层面可采用图神经网络(GNN)、化学语言模型(CLM)或传统描述符;在混合物层面需设计满足置换不变性的集合函数(如DeepSets或自注意力机制)。特别建议针对温度依赖性任务采用阿伦尼乌斯方程参数预测的物理约束方法。评估时应系统比较不同分割策略下的性能表现,重点关注模型对未见组分和新温度区间的泛化能力。
背景与挑战
背景概述
CheMixHub是由多伦多大学、Vector Institute和加拿大国家研究委员会清洁能源创新研究中心的研究团队于2025年推出的化学混合物性质预测基准数据集。该数据集整合了来自7个公开数据源的约50万个数据点,覆盖药物递送制剂、电池电解质等11项化学混合物性质预测任务。作为首个针对多组分分子系统的标准化数据库,CheMixHub通过引入四种数据分割策略(随机分割、未见化学成分分割、混合比例分割和分布外情境分割),系统评估模型在不同实验场景下的泛化能力。该数据集的建立填补了机器学习社区在化学混合物空间研究的数据空白,为材料重配方、优化和发现提供了重要基础。
当前挑战
化学混合物建模面临双重挑战:在科学层面,混合物性质与组分间分子相互作用高度相关,传统定量构效关系模型难以直接从单一组分行为推导多组分系统特性;在数据构建层面,聚合物和盐类等特殊化学物质的表征、温度依赖性的标准化处理,以及不同实验条件下数据一致性的保障构成主要难点。具体表现为:1) 需开发具有置换不变性和层次结构的深度学习架构来捕捉分子间高阶相互作用;2) 需解决混合物组分数量可变带来的输入维度动态变化问题;3) 需克服公开数据分散、标注标准不统一导致的跨数据集整合困难。
常用场景
经典使用场景
CheMixHub数据集在化学混合物的性质预测领域具有广泛的应用场景,尤其在药物传递配方和电池电解质的设计中表现突出。通过整合11种不同的化学混合物性质预测任务,该数据集为研究人员提供了一个统一的平台,用于评估和比较不同机器学习模型在预测混合物性质方面的性能。数据集中的任务涵盖了从密度、热力学性质到电导率等多个关键指标,为化学混合物的优化和发现提供了丰富的数据支持。
解决学术问题
CheMixHub数据集解决了化学混合物研究中数据分散、评估标准不统一的问题。通过整合来自7个公开数据集的约50万个数据点,该数据集为研究人员提供了一个标准化的基准,用于系统探索化学混合物的性质预测。此外,数据集引入了多种数据分割技术,如随机分割、未见化学成分分割和温度分割,以评估模型在不同情境下的泛化能力。这些功能显著提升了化学混合物研究的效率和可重复性。
实际应用
在实际应用中,CheMixHub数据集被广泛用于加速化学混合物的开发和优化。例如,在制药行业中,该数据集可用于预测药物在混合溶剂中的溶解度,从而优化药物配方。在能源领域,数据集中的电导率数据可用于设计高性能的电池电解质。此外,数据集的温度依赖性任务还为工业过程设计提供了关键的热力学性质预测,帮助工程师在更广泛的温度范围内优化混合物性能。
数据集最近研究
最新研究方向
近年来,CheMixHub数据集在化学混合物性质预测领域引起了广泛关注。该数据集整合了11项跨领域任务,涵盖药物递送制剂、电池电解质等多个应用场景,为机器学习模型提供了丰富的训练和评估资源。研究热点主要集中在开发能够有效捕捉分子间相互作用和排列不变性的深度学习模型,如基于注意力机制的架构和DeepSets方法。此外,结合物理约束(如阿伦尼乌斯方程)的混合建模策略显著提升了模型在温度依赖性任务中的泛化能力。该数据集的推出填补了多组分分子系统标准化数据库的空白,为加速新化学混合物的发现和优化提供了重要平台,对制药、能源材料等领域具有深远影响。
相关研究论文
  • 1
    CheMixHub: Datasets and Benchmarks for Chemical Mixture Property Prediction多伦多大学, 加拿大; 人工智能向量研究所, 加拿大; 加拿大国家研究委员会清洁能源创新研究中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作