C-MuMOInstruct
收藏C-MuMOInstruct 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 任务类别: 文本生成
- 语言: 英语
- 标签: 大语言模型、化学、分子优化
- 数据规模: 1M < n < 10M
数据集内容
- 任务总数: 28,266
- 多属性优化任务数: 27,401(至少优化3种属性)
- 评估任务:
- 10种代表性属性组合
- 119个多目标任务
- 分组: 51个IND任务和68个OOD任务
数据来源
- 代码仓库: https://github.com/ninglab/GeLLMO-C
- 论文: https://arxiv.org/abs/2505.23987
使用说明
-
评估设置:
- 每个IND任务在两种设置下评估: 使用已见指令和未见指令
- 示例:
instr_setting = seen表示使用已见指令
-
快速开始: python from datasets import load_dataset dataset = load_dataset("NingLab/C-MuMOInstruct")
-
训练数据筛选示例: python property_comb = [bbbp+drd2+qed, bbbp+plogp+qed, bbbp+drd2+plogp+qed] train_data = train_dataset.filter(lambda example: example[property_comb] in property_comb and example[split] == train)
-
评估数据筛选示例: python test_data = test_dataset.filter(lambda example: example[property_comb] == ampa+carc+erg+plogp and example[instr_setting] == seen)
引用
bibtex @article{dey2025llm, title={Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization}, author={Vishal Dey and Xiao Hu and Xia Ning}, year={2025}, eprint={2505.23987}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2505.23987}, }




