liupf/SLM4CRP_with_RTs
收藏SLM4CRP_with_RTs 数据集
概述
SLM4CRP_with_RTs 数据集是一个化学反应预测(CRPs)数据集,包含反应类型(RT)标签,源自 Mol-Instruction。我们引入了一种结合自反馈机制和使用大型语言模型(LLMs)进行数据整理的新型知识提取方法。该数据集通过结合化学反应的反应物和产物与注释的 RT,展示了领域集成数据可以增强 LLMs 的能力。
使用方法
该数据集主要面向从事化学反应预测模型研究的研究人员和开发者。数据集可通过 GitHub 仓库链接 SLM4CRP 获取。用户可以根据自己的需求下载数据集,用于计算化学和机器学习领域的模型训练和评估。
数据可视化
为了在 LLMs 进行知识提取时平衡准确性和 RT 数量,我们评估了四种编码方法:
- 直接输出向量
- 输出减输入向量
- 连接输入输出向量
- 输入和输出向量的点积
这些向量使用 LLM Text+Chem T5 模型进行编码。我们还讨论了探索不同聚类数量的理由,强调编码和聚类的选择可以显著影响注释准确性 (Acc)。
编码方法: 我们对不同编码向量和任务类型的 (Acc) 进行了比较分析,重点关注 (N) 的范围。如图 1(a) 所示,(Acc) 在 (N) 从 3 到 12 的可适应范围内逐渐下降。我们的结果表明,连接输入输出向量在不同任务中始终保持最高的注释准确性,即使在 (N) 设置为 10 时,准确性仍超过 70%。这突出了连接向量捕捉化学 RT 细节的能力。
聚类可视化和影响: 我们探索了测试数据集的聚类结果,重点关注最佳编码方法(连接输入输出向量)在选择的聚类数量 (N=6) 和 (N=10) 下的表现。图 1(b) 显示了聚类的分布,这些聚类从高维编码向量降维到二维以更好地可视化。这些可视化揭示了每个任务的化学反应显示出不同的知识模式,为生成反应内容提供了重要的提示信息。
引用
@misc{liu2024selffeedback, title={A Self-feedback Knowledge Elicitation Approach for Chemical Reaction Predictions}, author={Pengfei Liu and Jun Tao and Zhixiang Ren}, year={2024}, eprint={2404.09606}, archivePrefix={arXiv}, primaryClass={cs.LG} }



