ApisTox
收藏arXiv2024-04-25 更新2024-06-21 收录
下载链接:
https://github.com/j-adamczyk/apis_tox_dataset
下载链接
链接失效反馈官方服务:
资源简介:
ApisTox是由波兰科学院生物化学与生物物理研究所创建的一个专注于蜜蜂(Apis mellifera)对农药毒性反应的综合数据集。该数据集整合了ECOTOX和PPDB等多个来源的数据,提供了包括化学物质毒性水平、出版时间及与外部化学数据库的链接等详细信息。ApisTox旨在支持环境与农业研究,同时帮助制定减少蜜蜂伤害的政策和实践。此外,它还为农业化学化合物的分子属性预测方法提供了独特的基准资源,适用于环境科学和化学信息学领域的学术研究和实际应用。
ApisTox is a comprehensive dataset focused on the toxicological responses of the western honey bee (Apis mellifera) to pesticides, created by the Institute of Biochemistry and Biophysics of the Polish Academy of Sciences. This dataset integrates data from multiple sources including ECOTOX and PPDB, providing detailed information such as the toxicity levels of chemical substances, publication dates, and links to external chemical databases. ApisTox aims to support environmental and agricultural research, while facilitating the formulation of policies and practices to mitigate harm to honey bees. Additionally, it serves as a unique benchmark resource for molecular property prediction methods of agrochemical compounds, applicable to both academic research and practical applications in the fields of environmental science and chemoinformatics.
提供机构:
波兰科学院生物化学与生物物理研究所
创建时间:
2024-04-25
搜集汇总
数据集介绍

构建方式
在环境毒理学与农业化学交叉领域,ApisTox数据集通过整合并精炼多个权威数据源构建而成。其构建过程始于从ECOTOX、PPDB及BPDB数据库中提取关于蜜蜂急性毒性的原始数据,重点关注以半数致死剂量(LD50)为核心的毒性测量。随后,研究团队实施了一系列严格的数据清洗与标准化步骤,包括统一测量单位至微克每蜂(μg/bee)、规范化化学物质登记号(CAS),并将暴露类型映射为口服、接触与其他三类标准毒性类别。通过聚合每个农药的多个测量值,并依据美国环保署与PPDB的阈值分别生成二元与三元毒性标签,最终利用PubChem API补充了SMILES字符串、PubChem CID及农药类型等元数据。所有分子经过RDKit规范化与去重处理,确保了数据的一致性与可处理性,最终形成了包含1035个独特分子的高质量数据集。
特点
ApisTox数据集在生态毒理学与计算化学领域展现出若干显著特征。作为目前规模最大、一致性最高的蜜蜂农药毒性数据集,它涵盖了广泛的化学空间,包含739种无毒与296种有毒化合物,并提供了二元与三元两种毒性分类体系。数据集富含多维元数据,如化学结构(SMILES)、PubChem标识符、农药类型(除草剂、杀菌剂、杀虫剂等)及首次文献发表年份,支持深入的结构与时效性分析。其分子多样性突出,拥有424个Bemis-Murcko骨架,且近20%的分子为无环或碎片化结构,这为分子图分类任务带来了独特挑战。此外,数据集遵循常见的生物可利用性过滤规则(如Lipinski规则),证实了其化学合理性,同时毒性分子中频繁出现的磷酸酯、氰基等官能团与文献中已知的蜜蜂敏感结构相符,增强了数据的生物学相关性。
使用方法
ApisTox数据集主要应用于农药对蜜蜂毒性的预测与理解,支持数据挖掘与机器学习任务。在监督学习框架下,研究者可将二元毒性标签(label)或三元毒性等级(ppdb_level)作为预测目标,利用提供的训练-测试划分(包括分层随机划分、时间划分与MaxMin划分)进行模型训练与验证。对于分类任务,建议使用考虑类别不平衡的评估指标,如AUROC与马修斯相关系数(MCC)。数据集特别适用于分子图分类模型的基准测试,为农业化学领域的图神经网络等算法提供了不同于药物设计的评估场景。在无监督分析中,可利用其丰富的结构数据进行频繁子图挖掘或聚类,以识别影响毒性的关键分子片段。使用时应严格遵守数据划分,避免信息泄露,并注意三元毒性等级实为有序回归问题,推荐使用序数逻辑回归等模型,并辅以MAE等回归指标进行评估。
背景与挑战
背景概述
在生态毒理学与农业化学的交叉领域,全球蜜蜂种群衰退已成为威胁生物多样性与粮食安全的严峻挑战。为系统评估农药对蜜蜂的毒性效应,波兰克拉科夫AGH大学与波兰科学院生物化学与生物物理研究所的研究团队于2024年共同构建了ApisTox数据集。该数据集整合了ECOTOX、PPDB和BPDB等多个权威数据库的毒性数据,聚焦于通过标准化流程获取的急性毒性LD50值,并涵盖分子结构、农药类型及文献发表年份等多维度信息。作为当前规模最大、结构最完整的蜜蜂毒性数据集,ApisTox不仅为环境风险评估与农药政策制定提供了关键数据支撑,更填补了农化领域分子性质预测基准数据的空白,推动了计算毒理学与可持续农业研究的深度融合。
当前挑战
ApisTox数据集致力于解决农化化合物对蜜蜂毒性预测这一复杂领域问题,其核心挑战在于化学空间的高度异质性与毒性机制的多样性。农药分子在结构、作用模式与生物活性上差异显著,传统基于药物化学的预测模型往往难以直接迁移至农化领域,亟需开发具有领域适应性的算法。在数据构建过程中,研究团队面临多重挑战:原始数据源格式异构、测量单位不统一、毒性分类体系差异显著,需通过精细化的映射与标准化流程实现整合;同时,数据去重与分子标识符(如SMILES与CAS号)的准确对应存在技术难点,部分分子因结构表征不一致可能导致信息丢失。此外,数据集的类别不平衡特性与时间分布偏倚,对模型评估的鲁棒性与泛化能力提出了更高要求。
常用场景
经典使用场景
在环境毒理学与计算化学信息学交叉领域,ApisTox数据集为评估农药对蜜蜂的急性毒性提供了标准化基准。该数据集整合了ECOTOX、PPDB和BPDB三大权威数据库的毒性数据,通过统一的中位致死剂量(LD50)指标和严格的预处理流程,构建了包含1035种农药分子的高质量集合。其经典应用场景在于为分子性质预测模型提供农业化学领域的验证平台,特别是针对图神经网络等先进算法在非药物分子上的泛化能力测试,弥补了传统药物化学数据集在农用化合物结构多样性上的不足。
解决学术问题
ApisTox数据集有效解决了环境科学中农药毒性评估数据碎片化与标准缺失的核心问题。通过融合多源异构数据并实施化学标识符标准化,该数据集克服了既往研究中数据不一致、覆盖范围有限的缺陷。在学术层面,它支持对农药结构与毒性关联机制的深入探索,例如通过分子支架分析和功能基团挖掘,识别出有机磷酸酯、拟除虫菊酯等与蜜蜂高毒性显著相关的化学特征。同时,数据集提供的时序分割与最大多样性分割策略,为模型在时间外推和化学空间泛化能力的评估建立了严谨框架,推动了生态毒理预测方法学的进步。
衍生相关工作
ApisTox数据集的发布催生了一系列聚焦于农业化合物毒性预测的计算方法研究。在模型架构层面,研究者基于该数据集开发了针对农药分子图的专用图神经网络,如引入注意力机制以捕捉硫、磷等关键毒性相关原子团。在算法评估方面,多项研究利用其提供的多种数据分割方案,系统比较了分子指纹、图核函数与深度学习模型在跨时间域和结构域泛化性能上的差异。此外,数据集还启发了对可解释性方法的研究,例如通过子图频率分析识别出氰基、胍基等与蜜蜂毒性高度相关的判别性子结构,为毒性机理的化学信息学阐释提供了新视角。
以上内容由遇见数据集搜集并总结生成



