Nanozymes

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/ai-chem/Nanozymes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个与化学物质相关的特征，如分子式(formula)、活性(activity)、对称性(syngony)、长度(length)、宽度(width)、深度(depth)、表面积(surface)等。还包括与酶活性相关的常数，如米氏常数(km_value)、最大反应速率(vmax_value)等，以及实验条件如pH值、温度等。数据集还包含了文献的DOI和PDF链接、文章标题、期刊名称和年份等信息。

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

在纳米酶研究领域，数据集的构建依赖于系统化的文献挖掘与数据整合。该数据集通过提取已发表科学文献中的实验数据，涵盖了纳米酶的化学组成、晶体结构、尺寸参数及催化性能等多维特征。每条记录均关联原始文献的DOI标识，确保数据来源的可追溯性，并通过标准化流程将异构的实验条件转化为结构化字段，最终形成包含千余条样本的机器学习就绪型数据集。

特点

该数据集的核心特征体现在其多模态属性与精细标注体系。除基础化学式与空间构型外，特别收录了酶促动力学参数如米氏常数与最大反应速率，并完整保留了浓度、pH值、温度等反应条件的量化描述。数据字段设计兼顾机器可读性与学科特异性，既包含单位标注的数值型变量，亦整合了反应类型分类与文献元数据，为跨文献的对比分析提供了坚实基础。

使用方法

针对纳米酶智能设计的研究需求，该数据集可直接用于构建催化活性预测模型或反应条件优化算法。使用者可通过分子描述符与反应参数的组合特征，训练回归模型评估纳米酶性能，亦可利用文献溯源功能开展元分析研究。数据集采用标准表格格式存储，支持主流机器学习框架的直接加载，其分字段标注特性特别适于开发多任务学习与可解释人工智能方案。

背景与挑战

背景概述

纳米酶数据集作为人工智能驱动的材料科学前沿产物，由AI-Chem研究团队于2024年构建，聚焦于模拟天然酶活性的纳米材料系统研究。该数据集系统整合了1135组实验数据，涵盖材料化学式、晶体结构、动力学参数及反应条件等23个关键特征，旨在建立纳米材料结构与催化功能之间的定量构效关系。其通过标准化数据格式与可追溯的文献来源，为新型纳米酶的高通量筛选与性能预测提供了基准平台，显著推动了生物传感、环境治理等交叉领域的研究进程。

当前挑战

在解决纳米酶催化活性预测这一核心问题时，数据集面临多尺度特征耦合的建模挑战，包括晶体对称性与表面形貌对酶活性的协同影响、动力学参数跨数量级的分布差异等。数据构建过程中需克服实验条件异构化难题，如不同文献中pH值与温度参数的标准化处理，以及纳米颗粒尺寸测量方法的系统误差校准。此外，部分样本存在关键特征字段缺失现象，需通过多源数据融合技术实现知识补全。

常用场景

经典使用场景

在纳米酶研究领域，该数据集为机器学习模型训练提供了系统化的实验参数支持。研究人员通过分析纳米材料的化学组成、晶体结构、尺寸参数与催化活性之间的复杂关系，构建预测模型来评估新型纳米酶的催化性能。数据集包含的米氏常数、最大反应速率等动力学参数，为理解纳米酶催化机制提供了关键数据支撑。

实际应用

在生物医学和环境保护领域，该数据集指导着纳米酶的实际应用开发。基于数据集训练的预测模型可加速新型纳米酶设计，用于疾病诊断中的生物传感、环境污染物的高效降解等场景。通过优化纳米材料的催化特性，研究人员能够开发出更高效的纳米酶基治疗剂和环境修复材料。

衍生相关工作

该数据集催生了多项基于机器学习的纳米酶研究创新。研究人员利用数据集开发了预测纳米酶催化活性的深度神经网络模型，推动了高通量虚拟筛选方法的发展。相关成果促进了纳米酶理性设计范式的建立，为新型纳米催化材料的发现提供了计算指导框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集