chenxran/uspto_full

Name: chenxran/uspto_full
Creator: chenxran
Published: 2023-03-02 17:09:59
License: 暂无描述

Hugging Face2023-03-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/chenxran/uspto_full

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: reaction dtype: string splits: - name: train num_bytes: 144904894 num_examples: 1693749 - name: valid num_bytes: 8025722 num_examples: 94063 - name: test num_bytes: 8090417 num_examples: 94227 download_size: 50910823 dataset_size: 161021033 --- # Dataset Card for "uspto_full" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征字段： - 字段名：reaction，数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），字节占用大小：144904894，样本数量：1693749 - 划分名称：验证集（valid），字节占用大小：8025722，样本数量：94063 - 划分名称：测试集（test），字节占用大小：8090417，样本数量：94227 下载总大小：50910823 字节数据集总存储大小：161021033 字节 # "uspto_full"数据集卡片需补充更多信息（https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards）

提供机构：

chenxran

原始信息汇总

数据集概述

数据集名称

名称: uspto_full

数据集特征

特征:
- 反应 (reaction): 数据类型为字符串。

数据集分割

训练集 (train):
- 示例数量: 1693749
- 数据大小: 144904894 字节
验证集 (valid):
- 示例数量: 94063
- 数据大小: 8025722 字节
测试集 (test):
- 示例数量: 94227
- 数据大小: 8090417 字节

数据集大小

下载大小: 50910823 字节
总数据集大小: 161021033 字节

搜集汇总

数据集介绍

构建方式

在化学研究领域，'chenxran/uspto_full'数据集的构建采用了对美国政府专利和商标办公室（USPTO）中专利数据的深度挖掘。该数据集从海量的专利文献中提取出化学反应信息，构建了一个包含1693749个训练样本、94063个验证样本和94227个测试样本的庞大集合，其数据总量达到了约161兆字节。

特点

该数据集的主要特点在于其全面性和实用性。它包含了从USPTO数据库中精选的专利文献，这些文献经过精心处理，转化为结构化的化学反应数据。数据集以字符串形式存储反应信息，便于研究者进行化学信息学相关的研究与应用。此外，其规模宏大，为深度学习和机器学习模型提供了充足的训练资源。

使用方法

使用'chenxran/uspto_full'数据集时，用户需先通过HuggingFace提供的平台下载必要的训练、验证和测试数据集。之后，用户可以依据数据集的划分，对机器学习模型进行训练和评估。该数据集支持多种化学信息学任务，如反应预测、性质推断等，为化学领域的研究者提供了强有力的数据支撑。

背景与挑战

背景概述

在化学研究领域，专利数据是洞悉化学反应机制和化合物性质的重要资源。'chenxran/uspto_full' 数据集，由陈西兰等人创建于近年来，依托于美国专利商标局（USPTO）的专利全文数据，致力于为化学信息学的研究者提供一份全面而详尽的反应数据集。该数据集的构建旨在解决化学领域中自动化解析和理解专利文献的难题，从而推动化学合成路径的预测、新材料的设计等前沿科学研究，对于化学信息学和相关交叉学科的发展具有深远的影响。

当前挑战

该数据集在构建过程中所面临的挑战主要涉及数据的质量控制和预处理。首先，专利数据的非结构化和专业性使得数据清洗和格式化工作尤为艰巨。其次，数据集在解决领域问题，如化学反应的自动识别与分类时，面临着如何提高识别准确率和覆盖范围的双重挑战。此外，化学专利数据中蕴含的信息丰富而复杂，如何有效提取和利用这些信息，以支持更深入的化学研究，是该数据集应用过程中的另一大挑战。

常用场景

经典使用场景

在化学信息学领域，'chenxran/uspto_full' 数据集被广泛用于研究和开发化学反应预测模型。该数据集包含从美国专利和商标局（USPTO）提取的化学反应信息，使得研究人员能够利用其中的大规模反应数据训练机器学习模型，以实现对未知化学反应产物或条件的预测。

衍生相关工作

基于该数据集，学术界衍生出了众多相关工作，如化学反应预测算法的创新、模型性能的提升、以及数据集本身的扩展和优化。这些工作不仅推动了化学信息学的发展，也为相邻领域如生物信息学和材料科学提供了借鉴和启示。

数据集最近研究