NORMAN Database with CCS, RT and MS2|化学分析数据集|质谱技术数据集
收藏github2024-11-22 更新2024-11-28 收录
下载链接:
https://github.com/narvall018/NORMAN_CCS_RT_MS2_database
下载链接
链接失效反馈资源简介:
一个综合数据库,结合了NORMAN化合物、CCS值(实验和预测)、保留时间(实验和预测)以及来自MassBank的MS2光谱。
创建时间:
2024-11-21
原始信息汇总
🧬 NORMAN Database with CCS, RT and MS2
📋 概述
一个综合数据库,结合了以下内容:
- 🔬 NORMAN化合物(NORMAN-SusDat)
- 📊 CCS值(实验和预测)
- ⏱️ 保留时间(实验和预测)
- 📈 MassBank中的MS2光谱
📚 笔记本
-
1_NORMAN_and_CCSbase.ipynb:- 🔄 将NORMAN数据库与CCS值结合
- 🧪 标准化SMILES结构
- 📊 合并实验和预测的CCS值
-
2_add_RT.ipynb:- ⏱️ 添加预测的保留时间
- 🤖 使用QSRR模型
- 🔍 数据清洗和验证
-
3_add_MS2.ipynb:- 📈 从MassBank集成MS2光谱
- 🔍 过滤ESI-QTOF数据
- 🧪 匹配光谱与化合物
-
4_database_info.ipynb:- 📊 统计分析
- 📉 数据可视化
- 📋 覆盖率评估
⚙️ 要求
- 🐍 Python 3.8+
- 📦 所需包:
- pandas
- rdkit
- QSRR_predictor
- matplotlib
- seaborn
🚀 安装与使用
- 克隆此仓库: bash git clone https://github.com/narvall018/NORMAN_CCS_RT_MS2_database.git
AI搜集汇总
数据集介绍

构建方式
NORMAN数据库与CCS、RT和MS2值的综合构建,始于对NORMAN化合物(源自NORMAN-SusDat)的整合。首先,通过`1_NORMAN_and_CCSbase.ipynb`笔记本,将NORMAN数据库与CCS值相结合,标准化SMILES结构,并合并实验与预测的CCS值。接着,`2_add_RT.ipynb`笔记本利用QSRR模型预测并添加保留时间,同时进行数据清洗与验证。最后,`3_add_MS2.ipynb`笔记本从MassBank整合MS2光谱,筛选ESI-QTOF数据,并匹配光谱与化合物。整个过程确保了数据的完整性与准确性。
使用方法
使用该数据集时,首先需克隆GitHub仓库,确保安装Python 3.8及以上版本,并配置必要的包如pandas、rdkit、QSRR_predictor、matplotlib和seaborn。通过运行提供的Jupyter笔记本,用户可以逐步整合NORMAN数据库与CCS、RT和MS2数据,进行数据清洗、验证和统计分析。具体操作包括标准化SMILES结构、预测保留时间、整合MS2光谱等,最终生成一个综合性的化学数据集,适用于多种化学分析和研究应用。
背景与挑战
背景概述
NORMAN数据库结合了NORMAN化合物、CCS值(实验和预测)、保留时间(实验和预测)以及来自MassBank的MS2光谱,形成了一个综合性的数据库。该数据库由NORMAN网络创建,旨在为化学分析提供一个全面的资源,特别是在环境化学和毒理学领域。通过整合这些数据,研究人员可以更有效地进行化合物鉴定和性质预测,从而推动相关领域的研究进展。
当前挑战
构建NORMAN数据库面临的主要挑战包括数据的标准化和整合。首先,不同来源的数据(如NORMAN化合物、CCS值、保留时间和MS2光谱)需要进行统一的标准化处理,以确保数据的一致性和可靠性。其次,预测值与实验值的合并需要精确的算法和模型,如QSRR模型,以提高预测的准确性。此外,数据的清洗和验证过程也至关重要,以排除错误和异常值,确保数据库的质量。
常用场景
经典使用场景
在现代化学研究中,NORMAN数据库结合CCS、RT和MS2数据,为研究人员提供了一个全面的工具。其经典使用场景包括:通过整合NORMAN化合物与CCS值、保留时间(RT)和MS2光谱,研究人员能够进行深入的化学分析和结构鉴定。例如,通过`1_NORMAN_and_CCSbase.ipynb`笔记本,可以标准化SMILES结构并合并实验和预测的CCS值,从而提高数据的一致性和可靠性。
解决学术问题
NORMAN数据库通过提供实验和预测的CCS值、RT以及MS2光谱,解决了化学领域中多个关键的学术研究问题。首先,它增强了化合物结构的准确性和一致性,这对于复杂化合物的鉴定至关重要。其次,通过QSRR模型预测的保留时间,研究人员可以更精确地进行色谱分析,提高实验结果的可靠性。此外,MS2光谱的整合为质谱分析提供了丰富的数据支持,有助于更深入地理解化合物的化学性质。
实际应用
在实际应用中,NORMAN数据库及其整合的CCS、RT和MS2数据广泛应用于药物开发、环境监测和食品安全等领域。例如,在药物开发过程中,研究人员可以利用该数据库进行药物代谢物的快速鉴定和结构分析,从而加速新药的研发进程。在环境监测中,该数据库支持对污染物的精确检测和分类,有助于制定有效的环境保护策略。此外,食品安全领域的研究人员可以利用这些数据进行食品中有害物质的快速筛查和鉴定。
数据集最近研究
最新研究方向
在质谱分析领域,NORMAN数据库的扩展与整合已成为前沿研究的热点。该数据库不仅包含了NORMAN化合物的基础信息,还融合了CCS值、保留时间(RT)及MS2光谱数据,为复杂化合物的鉴定与定量分析提供了全面的数据支持。特别是,通过结合实验与预测的CCS值,以及利用QSRR模型预测的保留时间,研究人员能够更精确地进行化合物识别与分类。此外,MS2光谱的集成进一步增强了数据集的实用性,使其在环境科学、药物分析及代谢组学等多个领域展现出巨大的应用潜力。
以上内容由AI搜集并总结生成



