five

NORMAN Database with CCS, RT and MS2|化学分析数据集|质谱技术数据集

收藏
github2024-11-22 更新2024-11-28 收录
化学分析
质谱技术
下载链接:
https://github.com/narvall018/NORMAN_CCS_RT_MS2_database
下载链接
链接失效反馈
资源简介:
一个综合数据库,结合了NORMAN化合物、CCS值(实验和预测)、保留时间(实验和预测)以及来自MassBank的MS2光谱。
创建时间:
2024-11-21
原始信息汇总

🧬 NORMAN Database with CCS, RT and MS2

📋 概述

一个综合数据库,结合了以下内容:

  • 🔬 NORMAN化合物(NORMAN-SusDat
  • 📊 CCS值(实验和预测)
  • ⏱️ 保留时间(实验和预测)
  • 📈 MassBank中的MS2光谱

📚 笔记本

  1. 1_NORMAN_and_CCSbase.ipynb:

    • 🔄 将NORMAN数据库与CCS值结合
    • 🧪 标准化SMILES结构
    • 📊 合并实验和预测的CCS值
  2. 2_add_RT.ipynb:

    • ⏱️ 添加预测的保留时间
    • 🤖 使用QSRR模型
    • 🔍 数据清洗和验证
  3. 3_add_MS2.ipynb:

    • 📈 从MassBank集成MS2光谱
    • 🔍 过滤ESI-QTOF数据
    • 🧪 匹配光谱与化合物
  4. 4_database_info.ipynb:

    • 📊 统计分析
    • 📉 数据可视化
    • 📋 覆盖率评估

⚙️ 要求

  • 🐍 Python 3.8+
  • 📦 所需包:

🚀 安装与使用

  1. 克隆此仓库: bash git clone https://github.com/narvall018/NORMAN_CCS_RT_MS2_database.git
AI搜集汇总
数据集介绍
main_image_url
构建方式
NORMAN数据库与CCS、RT和MS2值的综合构建,始于对NORMAN化合物(源自NORMAN-SusDat)的整合。首先,通过`1_NORMAN_and_CCSbase.ipynb`笔记本,将NORMAN数据库与CCS值相结合,标准化SMILES结构,并合并实验与预测的CCS值。接着,`2_add_RT.ipynb`笔记本利用QSRR模型预测并添加保留时间,同时进行数据清洗与验证。最后,`3_add_MS2.ipynb`笔记本从MassBank整合MS2光谱,筛选ESI-QTOF数据,并匹配光谱与化合物。整个过程确保了数据的完整性与准确性。
使用方法
使用该数据集时,首先需克隆GitHub仓库,确保安装Python 3.8及以上版本,并配置必要的包如pandas、rdkit、QSRR_predictor、matplotlib和seaborn。通过运行提供的Jupyter笔记本,用户可以逐步整合NORMAN数据库与CCS、RT和MS2数据,进行数据清洗、验证和统计分析。具体操作包括标准化SMILES结构、预测保留时间、整合MS2光谱等,最终生成一个综合性的化学数据集,适用于多种化学分析和研究应用。
背景与挑战
背景概述
NORMAN数据库结合了NORMAN化合物、CCS值(实验和预测)、保留时间(实验和预测)以及来自MassBank的MS2光谱,形成了一个综合性的数据库。该数据库由NORMAN网络创建,旨在为化学分析提供一个全面的资源,特别是在环境化学和毒理学领域。通过整合这些数据,研究人员可以更有效地进行化合物鉴定和性质预测,从而推动相关领域的研究进展。
当前挑战
构建NORMAN数据库面临的主要挑战包括数据的标准化和整合。首先,不同来源的数据(如NORMAN化合物、CCS值、保留时间和MS2光谱)需要进行统一的标准化处理,以确保数据的一致性和可靠性。其次,预测值与实验值的合并需要精确的算法和模型,如QSRR模型,以提高预测的准确性。此外,数据的清洗和验证过程也至关重要,以排除错误和异常值,确保数据库的质量。
常用场景
经典使用场景
在现代化学研究中,NORMAN数据库结合CCS、RT和MS2数据,为研究人员提供了一个全面的工具。其经典使用场景包括:通过整合NORMAN化合物与CCS值、保留时间(RT)和MS2光谱,研究人员能够进行深入的化学分析和结构鉴定。例如,通过`1_NORMAN_and_CCSbase.ipynb`笔记本,可以标准化SMILES结构并合并实验和预测的CCS值,从而提高数据的一致性和可靠性。
解决学术问题
NORMAN数据库通过提供实验和预测的CCS值、RT以及MS2光谱,解决了化学领域中多个关键的学术研究问题。首先,它增强了化合物结构的准确性和一致性,这对于复杂化合物的鉴定至关重要。其次,通过QSRR模型预测的保留时间,研究人员可以更精确地进行色谱分析,提高实验结果的可靠性。此外,MS2光谱的整合为质谱分析提供了丰富的数据支持,有助于更深入地理解化合物的化学性质。
实际应用
在实际应用中,NORMAN数据库及其整合的CCS、RT和MS2数据广泛应用于药物开发、环境监测和食品安全等领域。例如,在药物开发过程中,研究人员可以利用该数据库进行药物代谢物的快速鉴定和结构分析,从而加速新药的研发进程。在环境监测中,该数据库支持对污染物的精确检测和分类,有助于制定有效的环境保护策略。此外,食品安全领域的研究人员可以利用这些数据进行食品中有害物质的快速筛查和鉴定。
数据集最近研究
最新研究方向
在质谱分析领域,NORMAN数据库的扩展与整合已成为前沿研究的热点。该数据库不仅包含了NORMAN化合物的基础信息,还融合了CCS值、保留时间(RT)及MS2光谱数据,为复杂化合物的鉴定与定量分析提供了全面的数据支持。特别是,通过结合实验与预测的CCS值,以及利用QSRR模型预测的保留时间,研究人员能够更精确地进行化合物识别与分类。此外,MS2光谱的集成进一步增强了数据集的实用性,使其在环境科学、药物分析及代谢组学等多个领域展现出巨大的应用潜力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录