haitengzhao/molecule_property_instruction
收藏Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haitengzhao/molecule_property_instruction
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: graph
dtype: string
- name: text
sequence: string
- name: label
dtype: string
- name: dataset_name
dtype: string
- name: task_index
dtype: string
- name: molecule_index
dtype: string
- name: split
dtype: string
splits:
- name: esol
num_bytes: 542831
num_examples: 1128
- name: lipo
num_bytes: 1519836
num_examples: 4200
- name: freesolv
num_bytes: 527615
num_examples: 642
- name: bace
num_bytes: 5103112
num_examples: 1513
- name: hiv
num_bytes: 215094514
num_examples: 41127
- name: muv
num_bytes: 594798639
num_examples: 249886
- name: tox21
num_bytes: 121153396
num_examples: 77946
- name: toxcast
num_bytes: 1543462519
num_examples: 1490412
- name: bbbp
num_bytes: 2521597
num_examples: 2039
- name: cyp450
num_bytes: 30602477
num_examples: 53178
- name: chembl_zero_shot
num_bytes: 89499667
num_examples: 180229
- name: chembl_pretraining
num_bytes: 12246285194
num_examples: 23874346
- name: pcba
num_bytes: 21761726609
num_examples: 34017170
download_size: 2163300521
dataset_size: 36612838006
license: afl-3.0
task_categories:
- question-answering
language:
- en
tags:
- chemistry
- biology
pretty_name: p
---
# Dataset Card for "molecule_property_instruction"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征字段:
- 名称:graph,数据类型:字符串
- 名称:text,数据类型:字符串序列
- 名称:label,数据类型:字符串
- 名称:dataset_name,数据类型:字符串
- 名称:task_index,数据类型:字符串
- 名称:molecule_index,数据类型:字符串
- 名称:split,数据类型:字符串
划分集:
- 划分名称:esol,字节数:542831,样本数:1128
- 划分名称:lipo,字节数:1519836,样本数:4200
- 划分名称:freesolv,字节数:527615,样本数:642
- 划分名称:bace,字节数:5103112,样本数:1513
- 划分名称:hiv,字节数:215094514,样本数:41127
- 划分名称:muv,字节数:594798639,样本数:249886
- 划分名称:tox21,字节数:121153396,样本数:77946
- 划分名称:toxcast,字节数:1543462519,样本数:1490412
- 划分名称:bbbp,字节数:2521597,样本数:2039
- 划分名称:cyp450,字节数:30602477,样本数:53178
- 划分名称:chembl_zero_shot(零样本,Zero-shot),字节数:89499667,样本数:180229
- 划分名称:chembl_pretraining,字节数:12246285194,样本数:23874346
- 划分名称:pcba,字节数:21761726609,样本数:34017170
下载大小:2163300521字节
数据集总大小:36612838006字节
授权协议:afl-3.0
任务类别:
- 问答任务
语言:
- 英语
标签:
- 化学
- 生物学
友好名称:p
---
# 「分子属性指令」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
haitengzhao
原始信息汇总
数据集概述
数据集特征
- graph: 字符串类型
- text: 字符串序列
- label: 字符串类型
- dataset_name: 字符串类型
- task_index: 字符串类型
- molecule_index: 字符串类型
- split: 字符串类型
数据集分割
- esol: 1128个样本,542831字节
- lipo: 4200个样本,1519836字节
- freesolv: 642个样本,527615字节
- bace: 1513个样本,5103112字节
- hiv: 41127个样本,215094514字节
- muv: 249886个样本,594798639字节
- tox21: 77946个样本,121153396字节
- toxcast: 1490412个样本,1543462519字节
- bbbp: 2039个样本,2521597字节
- cyp450: 53178个样本,30602477字节
- chembl_zero_shot: 180229个样本,89499667字节
- chembl_pretraining: 23874346个样本,12246285194字节
- pcba: 34017170个样本,21761726609字节
数据集大小
- 下载大小: 2163300521字节
- 数据集大小: 36612838006字节
许可证
- afl-3.0
搜集汇总
数据集介绍

构建方式
在计算化学与药物发现领域,数据集的质量直接影响模型预测的准确性。该数据集通过整合多个权威分子属性数据库,如ESOL、Lipo、HIV等,构建了一个全面的分子性质指令集。每个样本包含分子图结构、文本描述及对应的属性标签,并依据不同任务和分子索引进行系统划分,确保了数据的结构化和可追溯性。数据集的构建过程注重原始数据的清洗与标准化,以支持跨任务的一致性分析。
特点
该数据集的特点体现在其广泛的覆盖范围和精细的标注体系。它涵盖了从溶解度到毒性预测的多种分子属性任务,每个任务均配有详细的文本指令和分子图表示,便于模型理解复杂化学关系。数据规模庞大,包含数千万个样本,且通过标准化格式存储,支持高效的数据加载与处理。这种多任务集成设计为跨领域研究提供了丰富的实验基础。
使用方法
在分子机器学习应用中,该数据集的使用方法侧重于灵活的任务适配。用户可根据具体需求,通过指定任务索引或分子索引来提取相应子集,结合图神经网络或语言模型进行训练与评估。数据集的文本字段可用于生成式任务,而图结构字段则支持基于结构的预测。建议在预处理阶段验证数据分割的完整性,以确保实验的可重复性和结果的可靠性。
背景与挑战
背景概述
在计算化学与药物发现领域,分子性质预测是加速新药研发与材料设计的核心任务。haitengzhao/molecule_property_instruction数据集由研究人员haitengzhao构建,旨在通过指令微调范式整合多任务分子属性数据,以推动人工智能在化学信息学中的应用。该数据集汇集了ESOL、Lipo、HIV、Tox21等多个经典分子属性基准,覆盖溶解度、毒性、生物活性等关键性质,其创建反映了近年来跨任务学习与大型语言模型在科学计算中的融合趋势,为分子表示学习与生成式AI提供了结构化训练资源,显著提升了模型在复杂化学空间中的泛化能力。
当前挑战
该数据集致力于解决分子性质预测中的多任务泛化挑战,即如何让单一模型同时准确预测溶解性、毒性、生物活性等多样化学属性,这需要克服分子表征与复杂性质间非线性映射的难题。在构建过程中,挑战主要源于数据整合的异构性:不同子数据集(如HIV、ToxCast)的规模、标注标准与噪声水平差异显著,需统一格式并确保质量;同时,大规模数据(如ChEMBL预训练部分)的处理与存储对计算资源提出了极高要求,而分子图结构与文本描述的融合也增加了表征学习的复杂性。
常用场景
经典使用场景
在计算化学与药物发现领域,分子性质预测是核心任务之一。haitengzhao/molecule_property_instruction数据集通过整合多种分子性质任务,如溶解度、毒性、生物活性等,为研究人员提供了一个统一的基准平台。该数据集以图结构和文本描述相结合的形式呈现分子信息,使得机器学习模型能够同时利用结构特征与语义信息进行性质推断。这种多模态设计不仅提升了预测的准确性,还促进了模型在跨任务泛化能力上的探索,成为评估分子表示学习算法性能的经典资源。
实际应用
在药物研发与材料科学中,分子性质的高通量筛选是关键环节。该数据集的实际应用体现在加速候选化合物的评估过程,例如预测药物的溶解性、渗透性及毒性风险。通过机器学习模型对数据集进行训练,研发人员能够快速识别具有潜在活性的分子,减少实验成本与时间消耗。此外,在环境毒理学领域,数据集支持的毒性预测模型有助于评估化学品的生态风险,为监管决策提供数据驱动的科学依据,展现了其在工业与公共安全中的实用价值。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作。例如,结合图神经网络与自然语言处理技术的多模态模型,如MolT5和ChemBERTa,利用其图-文本对数据优化分子表示学习。这些工作探索了分子结构的编码方式与性质预测的关联,推动了预训练范式在化学领域的应用。同时,数据集支持的指令微调方法启发了如MolInst等框架的开发,旨在通过自然语言指令灵活适配多样化的分子任务,进一步丰富了化学人工智能的方法论体系。
以上内容由遇见数据集搜集并总结生成



