C-MuMOInstruct

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/NingLab/C-MuMOInstruct

下载链接

链接失效反馈

官方服务：

资源简介：

C-MuMOInstruct数据集包含28,266个任务，主要用于多属性多目标分子优化。其中，27,401个任务涉及至少3个属性的优化。该数据集提供了51个IND任务和68个OOD任务，用于在已见和未见指令的设置下评估模型。

创建时间：

2025-05-29

原始信息汇总

C-MuMOInstruct 数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 文本生成
语言: 英语
标签: 大语言模型、化学、分子优化
数据规模: 1M < n < 10M

数据集内容

任务总数: 28,266
多属性优化任务数: 27,401（至少优化3种属性）
评估任务:
- 10种代表性属性组合
- 119个多目标任务
- 分组: 51个IND任务和68个OOD任务

数据来源

代码仓库: https://github.com/ninglab/GeLLMO-C
论文: https://arxiv.org/abs/2505.23987

使用说明

评估设置:
- 每个IND任务在两种设置下评估: 使用已见指令和未见指令
- 示例: instr_setting = seen 表示使用已见指令
快速开始: python from datasets import load_dataset dataset = load_dataset("NingLab/C-MuMOInstruct")
训练数据筛选示例: python property_comb = [bbbp+drd2+qed, bbbp+plogp+qed, bbbp+drd2+plogp+qed] train_data = train_dataset.filter(lambda example: example[property_comb] in property_comb and example[split] == train)
评估数据筛选示例: python test_data = test_dataset.filter(lambda example: example[property_comb] == ampa+carc+erg+plogp and example[instr_setting] == seen)

引用

bibtex @article{dey2025llm, title={Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization}, author={Vishal Dey and Xiao Hu and Xia Ning}, year={2025}, eprint={2505.23987}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2505.23987}, }

搜集汇总

数据集介绍

构建方式

在计算化学与药物发现领域，C-MuMOInstruct数据集通过系统整合多属性分子优化任务构建而成。该数据集涵盖28,266项任务，其中27,401项任务涉及至少三种属性的协同优化，旨在模拟真实药物设计中的复杂需求。数据来源基于公开化学数据库与专业领域知识，采用严格的质量控制流程确保分子结构与属性标注的准确性。评估部分精选了10组代表性属性组合，包含119个多目标任务，并划分为51个分布内任务和68个分布外任务，以全面检验模型的泛化能力。

特点

C-MuMOInstruct的显著特点在于其多目标优化框架的全面性与结构性。数据集不仅覆盖广泛的化学属性组合，还引入了指令设置的分层设计，支持“已见指令”与“未见指令”两种评估模式。这种设计能够有效区分模型对已知任务的应用能力与对新任务的适应性能。数据规模达到百万至千万级别，兼具分布内任务的深度与分布外任务的广度，为大规模语言模型在分子优化领域的可控性研究提供了高价值基准。

使用方法

使用该数据集时，可通过HuggingFace平台直接加载完整数据，并利用属性组合筛选机制快速构建训练与测试集。针对特定属性组合的训练，用户可通过过滤函数提取对应任务数据；评估阶段则需根据指令设置区分测试场景。数据集的模块化结构支持灵活的任务配置，例如针对'bbbp+drd2+qed'等组合的定向优化，或对'ampa+carc+erg+plogp'等复杂任务的泛化测试，为分子生成算法的迭代验证提供了标准化流程。

背景与挑战

背景概述

在计算化学与药物发现领域，多目标分子优化是提升化合物设计效率的核心课题。C-MuMOInstruct数据集由NingLab团队于2025年构建，旨在通过大规模语言模型推动多属性分子协同优化研究。该数据集聚焦于分子性质的多目标平衡问题，如生物活性、毒性与药代动力学特性的同步优化，其涵盖28,266项任务，其中27,401项涉及至少三种属性的组合优化。通过整合生成式人工智能与化学信息学方法，该资源为可控分子设计提供了结构化指令数据，显著加速了智能药物开发范式的演进。

当前挑战

多目标分子优化需克服属性间复杂权衡的固有难题，例如生物活性与毒性往往存在拮抗关系，而传统单目标模型难以捕捉此类非线性交互。数据集构建过程中，团队面临分子表示标准化与多属性标注一致性的挑战，需从异构化学数据库中提取并验证性质数据。此外，指令设计的泛化性要求任务既能覆盖已知性质组合（IND），又需扩展至未知分布（OOD），这对数据分布的平衡性与评估框架的鲁棒性提出了更高要求。

常用场景

经典使用场景

在计算化学与药物发现领域，C-MuMOInstruct数据集通过构建28,266个多属性优化任务，为分子设计研究提供了标准化基准。其核心应用场景聚焦于训练大型语言模型执行多目标分子优化，例如同时提升化合物的生物活性、溶解性与安全性。研究人员可利用该数据集指导模型生成满足特定属性组合的分子结构，推动智能化分子生成技术的发展。

解决学术问题

该数据集有效解决了传统分子优化中单目标局限性与多属性权衡难题，为复杂药物分子设计提供了系统化评估框架。通过划分51个分布内与68个分布外任务，它支持模型泛化能力研究，并填补了多目标分子优化缺乏标准化指令数据的空白。其引入的指令设置差异化为可控生成研究提供了新维度，显著提升了分子优化任务的可靠性与可复现性。

衍生相关工作

基于C-MuMOInstruct的评估框架，研究者开发了如GeLLMO-C等分子优化模型，推动了可控生成技术在化学领域的应用。相关研究进一步拓展至多模态分子表示学习、跨任务迁移优化等方向，衍生出如指令自适应优化、零样本分子生成等创新方法，为AI驱动的化学发现奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集