five

liupf/SLM4CRP_with_RTs

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/liupf/SLM4CRP_with_RTs
下载链接
链接失效反馈
官方服务:
资源简介:
SLM4CRP_with_RTs数据集是一个化学反应预测(CRPs)数据集,包含反应类型(RT)标签,基于Mol-Instruction开发。该数据集通过结合化学反应的反应物和产物以及标注的RTs,体现了领域特定知识,展示了领域集成数据如何增强大型语言模型(LLMs)的能力。数据集主要用于化学反应预测模型的研究和开发。

SLM4CRP_with_RTs数据集是一个化学反应预测(CRPs)数据集,包含反应类型(RT)标签,基于Mol-Instruction开发。该数据集通过结合化学反应的反应物和产物以及标注的RTs,体现了领域特定知识,展示了领域集成数据如何增强大型语言模型(LLMs)的能力。数据集主要用于化学反应预测模型的研究和开发。
提供机构:
liupf
原始信息汇总

SLM4CRP_with_RTs 数据集

概述

SLM4CRP_with_RTs 数据集是一个化学反应预测(CRPs)数据集,包含反应类型(RT)标签,源自 Mol-Instruction。我们引入了一种结合自反馈机制和使用大型语言模型(LLMs)进行数据整理的新型知识提取方法。该数据集通过结合化学反应的反应物和产物与注释的 RT,展示了领域集成数据可以增强 LLMs 的能力。

使用方法

该数据集主要面向从事化学反应预测模型研究的研究人员和开发者。数据集可通过 GitHub 仓库链接 SLM4CRP 获取。用户可以根据自己的需求下载数据集,用于计算化学和机器学习领域的模型训练和评估。

数据可视化

为了在 LLMs 进行知识提取时平衡准确性和 RT 数量,我们评估了四种编码方法:

  • 直接输出向量
  • 输出减输入向量
  • 连接输入输出向量
  • 输入和输出向量的点积

这些向量使用 LLM Text+Chem T5 模型进行编码。我们还讨论了探索不同聚类数量的理由,强调编码和聚类的选择可以显著影响注释准确性 (Acc)。

编码方法: 我们对不同编码向量和任务类型的 (Acc) 进行了比较分析,重点关注 (N) 的范围。如图 1(a) 所示,(Acc) 在 (N) 从 3 到 12 的可适应范围内逐渐下降。我们的结果表明,连接输入输出向量在不同任务中始终保持最高的注释准确性,即使在 (N) 设置为 10 时,准确性仍超过 70%。这突出了连接向量捕捉化学 RT 细节的能力。

聚类可视化和影响: 我们探索了测试数据集的聚类结果,重点关注最佳编码方法(连接输入输出向量)在选择的聚类数量 (N=6) 和 (N=10) 下的表现。图 1(b) 显示了聚类的分布,这些聚类从高维编码向量降维到二维以更好地可视化。这些可视化揭示了每个任务的化学反应显示出不同的知识模式,为生成反应内容提供了重要的提示信息。

引用

@misc{liu2024selffeedback, title={A Self-feedback Knowledge Elicitation Approach for Chemical Reaction Predictions}, author={Pengfei Liu and Jun Tao and Zhixiang Ren}, year={2024}, eprint={2404.09606}, archivePrefix={arXiv}, primaryClass={cs.LG} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作