haitengzhao/molecule_property_instruction

Name: haitengzhao/molecule_property_instruction
Creator: haitengzhao
Published: 2023-07-13 10:30:29
License: 暂无描述

Hugging Face2023-07-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/haitengzhao/molecule_property_instruction

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: graph dtype: string - name: text sequence: string - name: label dtype: string - name: dataset_name dtype: string - name: task_index dtype: string - name: molecule_index dtype: string - name: split dtype: string splits: - name: esol num_bytes: 542831 num_examples: 1128 - name: lipo num_bytes: 1519836 num_examples: 4200 - name: freesolv num_bytes: 527615 num_examples: 642 - name: bace num_bytes: 5103112 num_examples: 1513 - name: hiv num_bytes: 215094514 num_examples: 41127 - name: muv num_bytes: 594798639 num_examples: 249886 - name: tox21 num_bytes: 121153396 num_examples: 77946 - name: toxcast num_bytes: 1543462519 num_examples: 1490412 - name: bbbp num_bytes: 2521597 num_examples: 2039 - name: cyp450 num_bytes: 30602477 num_examples: 53178 - name: chembl_zero_shot num_bytes: 89499667 num_examples: 180229 - name: chembl_pretraining num_bytes: 12246285194 num_examples: 23874346 - name: pcba num_bytes: 21761726609 num_examples: 34017170 download_size: 2163300521 dataset_size: 36612838006 license: afl-3.0 task_categories: - question-answering language: - en tags: - chemistry - biology pretty_name: p --- # Dataset Card for "molecule_property_instruction" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征字段： - 名称：graph，数据类型：字符串 - 名称：text，数据类型：字符串序列 - 名称：label，数据类型：字符串 - 名称：dataset_name，数据类型：字符串 - 名称：task_index，数据类型：字符串 - 名称：molecule_index，数据类型：字符串 - 名称：split，数据类型：字符串划分集： - 划分名称：esol，字节数：542831，样本数：1128 - 划分名称：lipo，字节数：1519836，样本数：4200 - 划分名称：freesolv，字节数：527615，样本数：642 - 划分名称：bace，字节数：5103112，样本数：1513 - 划分名称：hiv，字节数：215094514，样本数：41127 - 划分名称：muv，字节数：594798639，样本数：249886 - 划分名称：tox21，字节数：121153396，样本数：77946 - 划分名称：toxcast，字节数：1543462519，样本数：1490412 - 划分名称：bbbp，字节数：2521597，样本数：2039 - 划分名称：cyp450，字节数：30602477，样本数：53178 - 划分名称：chembl_zero_shot（零样本，Zero-shot），字节数：89499667，样本数：180229 - 划分名称：chembl_pretraining，字节数：12246285194，样本数：23874346 - 划分名称：pcba，字节数：21761726609，样本数：34017170 下载大小：2163300521字节数据集总大小：36612838006字节授权协议：afl-3.0 任务类别： - 问答任务语言： - 英语标签： - 化学 - 生物学友好名称：p --- # 「分子属性指令」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

haitengzhao

原始信息汇总

数据集概述

数据集特征

graph: 字符串类型
text: 字符串序列
label: 字符串类型
dataset_name: 字符串类型
task_index: 字符串类型
molecule_index: 字符串类型
split: 字符串类型

数据集分割

esol: 1128个样本，542831字节
lipo: 4200个样本，1519836字节
freesolv: 642个样本，527615字节
bace: 1513个样本，5103112字节
hiv: 41127个样本，215094514字节
muv: 249886个样本，594798639字节
tox21: 77946个样本，121153396字节
toxcast: 1490412个样本，1543462519字节
bbbp: 2039个样本，2521597字节
cyp450: 53178个样本，30602477字节
chembl_zero_shot: 180229个样本，89499667字节
chembl_pretraining: 23874346个样本，12246285194字节
pcba: 34017170个样本，21761726609字节

数据集大小

下载大小: 2163300521字节
数据集大小: 36612838006字节

许可证

afl-3.0

搜集汇总

数据集介绍

构建方式

在计算化学与药物发现领域，数据集的质量直接影响模型预测的准确性。该数据集通过整合多个权威分子属性数据库，如ESOL、Lipo、HIV等，构建了一个全面的分子性质指令集。每个样本包含分子图结构、文本描述及对应的属性标签，并依据不同任务和分子索引进行系统划分，确保了数据的结构化和可追溯性。数据集的构建过程注重原始数据的清洗与标准化，以支持跨任务的一致性分析。

特点

该数据集的特点体现在其广泛的覆盖范围和精细的标注体系。它涵盖了从溶解度到毒性预测的多种分子属性任务，每个任务均配有详细的文本指令和分子图表示，便于模型理解复杂化学关系。数据规模庞大，包含数千万个样本，且通过标准化格式存储，支持高效的数据加载与处理。这种多任务集成设计为跨领域研究提供了丰富的实验基础。

使用方法

在分子机器学习应用中，该数据集的使用方法侧重于灵活的任务适配。用户可根据具体需求，通过指定任务索引或分子索引来提取相应子集，结合图神经网络或语言模型进行训练与评估。数据集的文本字段可用于生成式任务，而图结构字段则支持基于结构的预测。建议在预处理阶段验证数据分割的完整性，以确保实验的可重复性和结果的可靠性。

背景与挑战

背景概述

在计算化学与药物发现领域，分子性质预测是加速新药研发与材料设计的核心任务。haitengzhao/molecule_property_instruction数据集由研究人员haitengzhao构建，旨在通过指令微调范式整合多任务分子属性数据，以推动人工智能在化学信息学中的应用。该数据集汇集了ESOL、Lipo、HIV、Tox21等多个经典分子属性基准，覆盖溶解度、毒性、生物活性等关键性质，其创建反映了近年来跨任务学习与大型语言模型在科学计算中的融合趋势，为分子表示学习与生成式AI提供了结构化训练资源，显著提升了模型在复杂化学空间中的泛化能力。

当前挑战

该数据集致力于解决分子性质预测中的多任务泛化挑战，即如何让单一模型同时准确预测溶解性、毒性、生物活性等多样化学属性，这需要克服分子表征与复杂性质间非线性映射的难题。在构建过程中，挑战主要源于数据整合的异构性：不同子数据集（如HIV、ToxCast）的规模、标注标准与噪声水平差异显著，需统一格式并确保质量；同时，大规模数据（如ChEMBL预训练部分）的处理与存储对计算资源提出了极高要求，而分子图结构与文本描述的融合也增加了表征学习的复杂性。

常用场景

经典使用场景

在计算化学与药物发现领域，分子性质预测是核心任务之一。haitengzhao/molecule_property_instruction数据集通过整合多种分子性质任务，如溶解度、毒性、生物活性等，为研究人员提供了一个统一的基准平台。该数据集以图结构和文本描述相结合的形式呈现分子信息，使得机器学习模型能够同时利用结构特征与语义信息进行性质推断。这种多模态设计不仅提升了预测的准确性，还促进了模型在跨任务泛化能力上的探索，成为评估分子表示学习算法性能的经典资源。

实际应用

在药物研发与材料科学中，分子性质的高通量筛选是关键环节。该数据集的实际应用体现在加速候选化合物的评估过程，例如预测药物的溶解性、渗透性及毒性风险。通过机器学习模型对数据集进行训练，研发人员能够快速识别具有潜在活性的分子，减少实验成本与时间消耗。此外，在环境毒理学领域，数据集支持的毒性预测模型有助于评估化学品的生态风险，为监管决策提供数据驱动的科学依据，展现了其在工业与公共安全中的实用价值。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作。例如，结合图神经网络与自然语言处理技术的多模态模型，如MolT5和ChemBERTa，利用其图-文本对数据优化分子表示学习。这些工作探索了分子结构的编码方式与性质预测的关联，推动了预训练范式在化学领域的应用。同时，数据集支持的指令微调方法启发了如MolInst等框架的开发，旨在通过自然语言指令灵活适配多样化的分子任务，进一步丰富了化学人工智能的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集