graphs-datasets/MUTAG
收藏Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graphs-datasets/MUTAG
下载链接
链接失效反馈官方服务:
资源简介:
MUTAG数据集是一个硝基芳香族化合物的集合,目标是预测它们对鼠伤寒沙门氏菌的诱变性。数据集包含187个图,每个图平均有18.03个节点和39.80条边。数据集主要用于分子属性预测,特别是预测分子是否对特定细菌具有诱变作用,这是一个二分类任务。数据集的使用可以通过PyGeometric库进行加载和处理。
The MUTAG dataset is a collection of nitroaromatic compounds, with the goal of predicting their mutagenicity towards Salmonella typhimurium. The dataset consists of 187 graphs, with an average of 18.03 nodes and 39.80 edges per graph. It is primarily used for molecular property prediction, specifically to predict whether a molecule has mutagenic effects on a specific bacterium, which is a binary classification task. The dataset can be loaded and processed via the PyGeometric library.
提供机构:
graphs-datasets
原始信息汇总
数据集概述
数据集名称
- MUTAG
数据集描述
- 摘要: MUTAG数据集包含硝基芳香化合物,旨在预测这些化合物对Salmonella typhimurium的诱变性。
- 任务类型: 分子属性预测,具体为二元分类任务,预测分子是否对特定细菌具有诱变效应。
- 评估指标: 使用准确率作为评估指标,采用10折交叉验证。
数据集结构
- 数据属性:
- 规模: 小
- 图数量: 187
- 平均节点数: 18.03
- 平均边数: 39.80
- 数据字段:
node_feat: 节点特征列表edge_index: 边索引列表edge_attr: 边特征列表y: 标签列表num_nodes: 节点数量
许可证信息
- 许可证: 未知
引用信息
@article{doi:10.1021/jm00106a046, author = {Debnath, Asim Kumar and Lopez de Compadre, Rosa L. and Debnath, Gargi and Shusterman, Alan J. and Hansch, Corwin}, title = {Structure-activity relationship of mutagenic aromatic and heteroaromatic nitro compounds. Correlation with molecular orbital energies and hydrophobicity}, journal = {Journal of Medicinal Chemistry}, volume = {34}, number = {2}, pages = {786-797}, year = {1991}, doi = {10.1021/jm00106a046}, URL = { https://doi.org/10.1021/jm00106a046 }, eprint = { https://doi.org/10.1021/jm00106a046 } }
搜集汇总
数据集介绍

构建方式
MUTAG数据集的构建基于对硝基芳香化合物及其异芳香硝基化合物的结构-活性关系研究,旨在预测这些化合物对鼠伤寒沙门氏菌的诱变性。数据集包含了187个图结构,每个图代表一个分子,节点表示原子,边表示化学键。通过分子轨道能量和疏水性等特征,构建了节点和边的特征向量,并标注了每个分子的诱变性标签,形成了一个二分类任务的数据集。
使用方法
MUTAG数据集可以通过PyGeometric库进行加载和使用。首先,使用`datasets`库加载数据集,然后将其转换为PyGeometric的`Data`对象,并通过`DataLoader`进行批处理。数据集的结构包括节点特征、边索引、边特征以及标签,用户可以根据需要选择训练、验证或测试集进行模型训练和评估。
背景与挑战
背景概述
MUTAG数据集是一个专注于硝基芳香化合物突变性的经典图数据集,由Debnath等人于1991年创建。该数据集的核心研究问题是通过分子结构预测其对Salmonella typhimurium的突变性,属于分子属性预测领域。MUTAG数据集的发布为图神经网络和化学信息学领域提供了重要的基准,推动了图分类和分子特性预测的研究进展。
当前挑战
MUTAG数据集的主要挑战在于其小规模和复杂的图结构,包含187个图,平均每个图有18.03个节点和39.80条边。这种复杂性使得图分类任务变得困难,尤其是在处理节点和边的特征时。此外,数据集的二元分类任务要求高精度的预测模型,而10折交叉验证的使用增加了模型评估的难度。
常用场景
经典使用场景
MUTAG数据集在分子属性预测领域中占据重要地位,其经典使用场景主要集中在预测硝基芳香化合物对鼠伤寒沙门氏菌的诱变性。通过构建分子图,利用图神经网络(GNN)对分子结构进行建模,进而实现对分子诱变性的二元分类。这一任务不仅为药物设计和毒理学研究提供了有力的工具,也为图神经网络在化学信息学中的应用奠定了基础。
解决学术问题
MUTAG数据集解决了分子结构与生物活性之间关系预测的学术难题。通过提供一个包含187个硝基芳香化合物的数据集,研究者能够探索分子图结构与诱变性之间的复杂关系。这一研究不仅推动了图神经网络在化学领域的应用,还为理解分子结构与生物活性之间的关联提供了新的视角,具有重要的理论和实践意义。
实际应用
在实际应用中,MUTAG数据集被广泛用于药物设计和毒理学评估。通过预测化合物的诱变性,研究人员可以筛选出潜在的有害物质,从而加速药物开发过程并降低临床试验风险。此外,该数据集还被用于环境科学领域,帮助识别和评估工业化学品对生态系统的潜在影响,为环境保护和可持续发展提供科学依据。
数据集最近研究
最新研究方向
在分子生物学与化学信息学交叉领域,MUTAG数据集因其对硝基芳香化合物突变性的预测任务而备受关注。该数据集主要用于分子属性预测,特别是预测化合物对沙门氏菌的突变效应,这一任务在药物设计和毒理学研究中具有重要意义。近年来,随着图神经网络(GNN)技术的快速发展,MUTAG数据集被广泛应用于图分类任务中,推动了分子图结构与属性之间关系的深入研究。此外,MUTAG数据集在图机器学习领域的基准测试中也扮演了关键角色,促进了新型图神经网络模型的开发与优化,为药物筛选和毒性评估提供了更为精准的工具。
以上内容由遇见数据集搜集并总结生成



