five

Benzimidazoles

收藏
Hugging Face2025-05-18 更新2025-05-19 收录
下载链接:
https://huggingface.co/datasets/ai-chem/Benzimidazoles
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了化学分子的信息,如分子结构(SMILES表示)、数字对象标识符(DOI)、文章标题、出版商、出版年份等。还包括了访问次数、化合物ID、目标类型、目标关系、目标值和单位等信息。此外,还涉及到细菌的相关信息,如统一命名的细菌、页面上的细菌位置、原始细菌名称、细菌所在的章节和小节等。数据集还包含了支架页面、支架来源、残基页面、残基来源、PDF文件路径等特征。数据集被划分为训练集,其大小为796323字节,包含1721个示例。数据集遵循MIT许可证。
创建时间:
2025-05-12
搜集汇总
数据集介绍
main_image_url
构建方式
在药物化学研究领域,Benzimidazoles数据集通过系统化文献挖掘构建而成。该过程整合了科学出版物中的关键信息,包括化合物SMILES表示、生物活性数据及实验来源。数据源自多篇经同行评审的论文,每条记录均标注原始文献的DOI、出版年份及出版商,确保数据可追溯性。构建时采用结构化提取方法,将分子结构、靶点相互作用和微生物测试结果关联整合,形成统一且可计算的数据框架。
特点
该数据集以苯并咪唑类化合物为核心,涵盖丰富的生物活性表征维度。特征字段包含靶点类型、作用关系及定量活性值,并统一规范了微生物菌种命名。数据兼具化学结构与生物学意义的双重注释,支持跨文献的化合物活性对比分析。其多维属性为药物发现中的构效关系研究提供了高粒度信息,特别适用于抗微生物药物的分子设计场景。
使用方法
研究人员可通过SMILES字段直接获取分子结构,结合靶点活性数据开展定量构效关系建模。数据集支持按细菌种类或靶点类型进行筛选,便于特定药理机制的分析。机器学习应用中,可将靶点值与分子特征关联,构建活性预测模型。数据分页索引机制允许定向追溯原始实验上下文,为计算化学与实验验证的闭环研究提供基础设施。
背景与挑战
背景概述
在药物化学领域,苯并咪唑类化合物因其独特的杂环结构和广泛的生物活性而备受关注。Benzimidazoles数据集由AI-Chem研究团队构建,聚焦于该类化合物的抗菌活性数据整合。该数据集系统收录了1721个样本的化学结构信息与生物活性数据,涵盖SMILES表征、靶点类型及细菌种类等关键特征,为抗菌药物发现提供了结构-活性关系的标准化研究基础。其多维度数据整合模式显著推进了计算化学与人工智能在药物设计领域的交叉应用。
当前挑战
该数据集致力于解决抗菌药物研发中化合物活性预测的复杂性问题,其核心挑战在于如何准确建立苯并咪唑衍生物的化学结构与多靶点抗菌活性之间的定量构效关系。在数据构建过程中,研究团队面临原始文献数据异构性带来的整合难题,包括不同实验条件下活性数据的标准化处理、细菌菌株命名规范统一、以及跨文献活性指标的单位换算等关键技术瓶颈。
常用场景
经典使用场景
在药物化学领域,Benzimidazoles数据集作为苯并咪唑类化合物的结构化资源,其经典应用聚焦于抗菌活性预测模型的构建。该数据集整合了化合物的SMILES表示与细菌抑制活性数据,为机器学习算法提供了训练基础,支持研究人员探索分子结构与生物活性之间的定量构效关系。
实际应用
在医药研发实践中,该数据集被广泛应用于新型抗菌药物的先导化合物优化阶段。制药企业可基于数据集构建的预测模型,快速评估苯并咪唑衍生物的抑菌潜力,显著缩短候选化合物的实验验证周期,为应对抗生素耐药性挑战提供了高效的计算辅助工具。
衍生相关工作
基于该数据集衍生的经典研究包括多任务学习框架下的抗菌谱预测模型,以及图神经网络驱动的分子性质生成工作。这些研究不仅拓展了化学信息学的方法论边界,更催生了如ChemX平台等开源工具生态,持续推动着智能药物研发范式的革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作