OpenMol/Yield_Regression

Name: OpenMol/Yield_Regression
Creator: OpenMol
Published: 2024-04-17 07:51:26
License: 暂无描述

Hugging Face2024-04-17 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/OpenMol/Yield_Regression

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集结合了Buchwald-Hartwig和Suzuki-Miyaura两个主要的产率预测数据集。数据集包含9515条训练数据和200条测试数据。每条数据记录包含系统、用户和助手的交互信息，涉及化学反应方程式的预测和产率的预测。

提供机构：

OpenMol

原始信息汇总

数据来源

结合Buchwald-Hartwig和Suzuki-Miyaura两种主要产率预测数据集。

数据统计

训练集：9515条
测试集：200条

示例

json { "messages": [ { "content": "You are a chemist. Now you are given a reaction equation. Please predict the possible reagents of the reaction. The reaction equation has the following format:

reactant1.reactant2. ... .reactantN>>product

The return value should be in range of 0-1. The higher the value, the more likely the reaction is to occur. We provide the structure of the reactions.", "role": "system" }, { "content": "<molecule_2d>.<molecule_2d>.<molecule_2d>.<molecule_2d>.<molecule_2d>.<molecule_2d>>><molecule_2d> Using the chemical reaction information, what is the ratio of the reactions yield?", "role": "user" }, { "content": "0.0368", "role": "assistant" } ] }

搜集汇总

数据集介绍

构建方式

OpenMol/Yield_Regression数据集的构建，是通过整合Buchwald-Hartwig与Suzuki-Miyaura两种主要产率预测数据集而成的。该数据集的构建方法体现了对化学反应产率预测领域中关键数据资源的整合与优化，旨在提升模型训练的全面性与准确性。

特点

该数据集的特点在于其数据来源的多样性与规模性，包含了9515条训练数据以及200条测试数据。它不仅提供了反应物与产物的结构信息，而且对反应产率进行了量化，为化学反应产率预测模型的开发与评估提供了坚实基础。

使用方法

使用OpenMol/Yield_Regression数据集，用户需遵循MIT许可证的规定。数据集可通过HuggingFace平台获取，用户可以将其应用于化学反应产率预测模型的训练与测试。具体使用时，用户需根据数据集中的反应方程及其对应的产率，进行模型的输入与输出匹配训练。

背景与挑战

背景概述

OpenMol/Yield_Regression数据集，是在化学领域具有重要影响力的数据集，旨在为化学家提供一种可靠的预测化学反应产率的工具。该数据集由Buchwald-Hartwig与Suzuki-Miyaura两大产率预测数据集合并而成，其创建汇集了多位化学研究者的智慧，并在学术界产生了广泛的影响。自推出以来，该数据集成为了化学信息学领域研究的一个重要基准，为研究者提供了深入理解化学反应产率变异性的宝贵资源。

当前挑战

在OpenMol/Yield_Regression数据集的构建过程中，研究人员面临了诸多挑战。首先，化学反应的多变性和复杂性使得产率的预测并非易事，需要处理的数据维度和特征提取都是巨大的挑战。其次，数据集的构建过程中，如何保证数据的质量和一致性，避免实验误差的干扰，也是必须克服的难题。此外，数据集在解决化学反应产率预测问题的同时，也面临着模型泛化能力不足和化学知识解释性不强的问题，这些问题的解决对促进该领域的发展至关重要。

常用场景

经典使用场景

在化学领域的研究与应用中，OpenMol/Yield_Regression数据集因其对反应产率预测的独特贡献而备受青睐。该数据集的经典使用场景在于，通过提供反应物与产物之间的结构信息，研究者可以训练模型预测化学反应的产率，从而优化合成路径和条件。

衍生相关工作

基于该数据集，学术界已衍生出多项经典工作，如进一步探索产率预测的算法改进、结合机器学习技术的反应机理研究等，这些都极大地推动了化学信息学的发展，并为相关领域的科研工作提供了新的视角和方法。

数据集最近研究