OpenMol/Yield_Regression|化学反应数据集|产率预测数据集

hugging_face2024-04-17 更新2024-06-22 收录

化学反应

产率预测

下载链接：

https://hf-mirror.com/datasets/OpenMol/Yield_Regression

下载链接

链接失效反馈

资源简介：

该数据集结合了Buchwald-Hartwig和Suzuki-Miyaura两个主要的产率预测数据集。数据集包含9515条训练数据和200条测试数据。每条数据记录包含系统、用户和助手的交互信息，涉及化学反应方程式的预测和产率的预测。

提供机构：

OpenMol

原始信息汇总

数据来源

结合Buchwald-Hartwig和Suzuki-Miyaura两种主要产率预测数据集。

数据统计

训练集：9515条
测试集：200条

示例

json { "messages": [ { "content": "You are a chemist. Now you are given a reaction equation. Please predict the possible reagents of the reaction. The reaction equation has the following format:

reactant1.reactant2. ... .reactantN>>product

The return value should be in range of 0-1. The higher the value, the more likely the reaction is to occur. We provide the structure of the reactions.", "role": "system" }, { "content": "<molecule_2d>.<molecule_2d>.<molecule_2d>.<molecule_2d>.<molecule_2d>.<molecule_2d>>><molecule_2d> Using the chemical reaction information, what is the ratio of the reactions yield?", "role": "user" }, { "content": "0.0368", "role": "assistant" } ] }

AI搜集汇总

数据集介绍

构建方式

OpenMol/Yield_Regression数据集的构建，是通过整合Buchwald-Hartwig与Suzuki-Miyaura两种主要产率预测数据集而成的。该数据集的构建方法体现了对化学反应产率预测领域中关键数据资源的整合与优化，旨在提升模型训练的全面性与准确性。

特点

该数据集的特点在于其数据来源的多样性与规模性，包含了9515条训练数据以及200条测试数据。它不仅提供了反应物与产物的结构信息，而且对反应产率进行了量化，为化学反应产率预测模型的开发与评估提供了坚实基础。

使用方法

使用OpenMol/Yield_Regression数据集，用户需遵循MIT许可证的规定。数据集可通过HuggingFace平台获取，用户可以将其应用于化学反应产率预测模型的训练与测试。具体使用时，用户需根据数据集中的反应方程及其对应的产率，进行模型的输入与输出匹配训练。

背景与挑战

背景概述

OpenMol/Yield_Regression数据集，是在化学领域具有重要影响力的数据集，旨在为化学家提供一种可靠的预测化学反应产率的工具。该数据集由Buchwald-Hartwig与Suzuki-Miyaura两大产率预测数据集合并而成，其创建汇集了多位化学研究者的智慧，并在学术界产生了广泛的影响。自推出以来，该数据集成为了化学信息学领域研究的一个重要基准，为研究者提供了深入理解化学反应产率变异性的宝贵资源。

当前挑战

在OpenMol/Yield_Regression数据集的构建过程中，研究人员面临了诸多挑战。首先，化学反应的多变性和复杂性使得产率的预测并非易事，需要处理的数据维度和特征提取都是巨大的挑战。其次，数据集的构建过程中，如何保证数据的质量和一致性，避免实验误差的干扰，也是必须克服的难题。此外，数据集在解决化学反应产率预测问题的同时，也面临着模型泛化能力不足和化学知识解释性不强的问题，这些问题的解决对促进该领域的发展至关重要。

常用场景

经典使用场景

在化学领域的研究与应用中，OpenMol/Yield_Regression数据集因其对反应产率预测的独特贡献而备受青睐。该数据集的经典使用场景在于，通过提供反应物与产物之间的结构信息，研究者可以训练模型预测化学反应的产率，从而优化合成路径和条件。

衍生相关工作

基于该数据集，学术界已衍生出多项经典工作，如进一步探索产率预测的算法改进、结合机器学习技术的反应机理研究等，这些都极大地推动了化学信息学的发展，并为相关领域的科研工作提供了新的视角和方法。

数据集最近研究

最新研究方向

在化学领域，OpenMol/Yield_Regression数据集的构建，结合了Buchwald-Hartwig与Suzuki-Miyaura两种主要产率预测的数据集，为研究化学反应产率提供了丰富的实证基础。近期研究聚焦于利用该数据集深化对化学反应机理的理解，尤其是对产率预测模型的开发与优化。这些研究不仅推动了化学信息学的发展，而且对于药物合成及材料科学等领域的实际应用具有重要的指导意义。通过精确预测化学反应产率，科研人员能够高效指导实验设计，降低研发成本，加速新药的发现与合成过程。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像，用于皮肤癌检测任务。数据集分为训练集、验证集和测试集，每张图像都附有详细的元数据，包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录