liupf/SLM4CRP_with_RTs

Name: liupf/SLM4CRP_with_RTs
Creator: liupf
Published: 2024-04-16 02:11:01
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/liupf/SLM4CRP_with_RTs

下载链接

链接失效反馈

官方服务：

资源简介：

SLM4CRP_with_RTs数据集是一个化学反应预测（CRPs）数据集，包含反应类型（RT）标签，基于Mol-Instruction开发。该数据集通过结合化学反应的反应物和产物以及标注的RTs，体现了领域特定知识，展示了领域集成数据如何增强大型语言模型（LLMs）的能力。数据集主要用于化学反应预测模型的研究和开发。

提供机构：

liupf

原始信息汇总

SLM4CRP_with_RTs 数据集

概述

SLM4CRP_with_RTs 数据集是一个化学反应预测（CRPs）数据集，包含反应类型（RT）标签，源自 Mol-Instruction。我们引入了一种结合自反馈机制和使用大型语言模型（LLMs）进行数据整理的新型知识提取方法。该数据集通过结合化学反应的反应物和产物与注释的 RT，展示了领域集成数据可以增强 LLMs 的能力。

使用方法

该数据集主要面向从事化学反应预测模型研究的研究人员和开发者。数据集可通过 GitHub 仓库链接 SLM4CRP 获取。用户可以根据自己的需求下载数据集，用于计算化学和机器学习领域的模型训练和评估。

数据可视化

为了在 LLMs 进行知识提取时平衡准确性和 RT 数量，我们评估了四种编码方法：

直接输出向量
输出减输入向量
连接输入输出向量
输入和输出向量的点积

这些向量使用 LLM Text+Chem T5 模型进行编码。我们还讨论了探索不同聚类数量的理由，强调编码和聚类的选择可以显著影响注释准确性 (Acc)。

编码方法：我们对不同编码向量和任务类型的 (Acc) 进行了比较分析，重点关注 (N) 的范围。如图 1(a) 所示，(Acc) 在 (N) 从 3 到 12 的可适应范围内逐渐下降。我们的结果表明，连接输入输出向量在不同任务中始终保持最高的注释准确性，即使在 (N) 设置为 10 时，准确性仍超过 70%。这突出了连接向量捕捉化学 RT 细节的能力。

聚类可视化和影响：我们探索了测试数据集的聚类结果，重点关注最佳编码方法（连接输入输出向量）在选择的聚类数量 (N=6) 和 (N=10) 下的表现。图 1(b) 显示了聚类的分布，这些聚类从高维编码向量降维到二维以更好地可视化。这些可视化揭示了每个任务的化学反应显示出不同的知识模式，为生成反应内容提供了重要的提示信息。

引用

@misc{liu2024selffeedback, title={A Self-feedback Knowledge Elicitation Approach for Chemical Reaction Predictions}, author={Pengfei Liu and Jun Tao and Zhixiang Ren}, year={2024}, eprint={2404.09606}, archivePrefix={arXiv}, primaryClass={cs.LG} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集