M.tuberculosis dataset for drug resistant

github2021-09-28 更新2024-05-31 收录

下载链接：

https://github.com/AmirHoseinSafari/M.tuberculosis-dataset-for-drug-resistant

下载链接

链接失效反馈

官方服务：

资源简介：

M.tuberculosis数据集，包含SNP和基因数据，用于预测药物抗性。数据集包括多个文件，如AllLabels.csv、SNPList.csv等，详细记录了样本对不同药物的敏感性/抗性状态及基因突变信息。

The M.tuberculosis dataset comprises SNP (Single Nucleotide Polymorphism) and gene data, utilized for predicting drug resistance. The dataset includes multiple files, such as AllLabels.csv and SNPList.csv, which meticulously document the sensitivity/resistance status of samples to various drugs, along with gene mutation information.

创建时间：

2020-10-27

原始信息汇总

M.tuberculosis 药物抗性预测数据集概述

数据集文件描述

AllLabels.csv

包含每个样本分离物对12种不同药物的敏感性/抗性状态（敏感性：0，抗性：1）。

SNPList.csv

列出在MTB基因组上检测到的所有突变位点，基于提供的参考基因组。

SNP_data_part*.zip

包含二进制SNP的csv文件，这些文件通过loading_data包进行连接。

gene_data.csv.zip

汇总基于它们所属基因的SNP，形成一个矩阵，该矩阵为每个样本分离物的每个基因提供单一特征。

iso_list.csv

训练数据中使用的所有分离物ID的列表。

sparsetableFeb27.npz

二进制SNP文件，以npz格式提供，便于使用。

搜集汇总

数据集介绍

构建方式

M.tuberculosis数据集针对耐药性预测，通过高通量测序技术获取结核分枝杆菌的基因组数据，并利用变异检测工具识别基因组上的突变位点。数据集包含多个文件，其中`AllLabels.csv`记录了每个样本对12种药物的敏感性或耐药性状态，`SNPList.csv`列出了所有检测到的突变位点，而`SNP_data_part*.zip`和`gene_data.csv.zip`则分别存储了二进制形式的SNP数据和基于基因的SNP汇总矩阵。数据集的构建基于参考基因组，确保了数据的准确性和一致性。

特点

该数据集的核心特点在于其全面性和结构化。它不仅提供了详细的突变位点信息，还通过基因层面的汇总矩阵简化了数据分析的复杂性。`sparsetableFeb27.npz`文件以稀疏矩阵形式存储SNP数据，便于高效加载和处理。此外，数据集涵盖了多种药物的耐药性信息，为研究结核分枝杆菌的耐药机制提供了丰富的数据支持。

使用方法

使用该数据集时，可通过`loading_data`包加载和处理二进制SNP数据。用户可以从`AllLabels.csv`中获取样本的耐药性标签，结合`SNPList.csv`和`gene_data.csv.zip`中的突变信息进行特征提取和分析。`sparsetableFeb27.npz`文件可直接用于机器学习模型的输入，简化了数据预处理步骤。具体使用方法可参考[LRCN-drug-resistance](https://github.com/AmirHoseinSafari/LRCN-drug-resistance#loading_data-package)仓库中的详细说明。

背景与挑战

背景概述

M.tuberculosis dataset for drug resistant 数据集专注于结核分枝杆菌（M. tuberculosis）的药物抗性预测研究。该数据集由研究人员Sadegh Saberian和AmirHosein Safari等人于2021年创建，旨在通过单核苷酸多态性（SNP）和基因数据，预测结核分枝杆菌对12种不同药物的抗性状态。数据集的核心研究问题在于如何利用基因组变异信息，准确预测结核病的药物抗性，从而为临床治疗提供科学依据。该数据集在结核病研究领域具有重要影响力，为药物抗性预测模型的开发提供了宝贵的数据支持。

当前挑战

M.tuberculosis dataset for drug resistant 数据集在解决结核病药物抗性预测问题时面临多重挑战。首先，结核分枝杆菌的基因组复杂且变异多样，如何从海量SNP数据中提取关键特征并构建有效的预测模型是一个技术难题。其次，数据集的构建过程中，研究人员需要处理来自不同实验室的样本数据，确保数据的一致性和可靠性。此外，由于结核病的药物抗性机制尚未完全阐明，数据集中可能存在未知的生物学噪声，这对模型的泛化能力提出了更高要求。最后，数据的高维性和稀疏性也增加了计算复杂度，对算法的效率和可扩展性提出了挑战。

常用场景

经典使用场景

在结核病研究领域，M.tuberculosis dataset for drug resistant数据集被广泛应用于药物耐药性预测模型的开发与验证。研究人员通过分析该数据集中的单核苷酸多态性（SNP）和基因数据，能够构建机器学习模型，预测结核分枝杆菌对不同药物的耐药性。这一数据集为结核病的精准医疗提供了重要的数据支持。

解决学术问题

该数据集解决了结核病研究中药物耐药性预测的关键问题。通过提供详细的SNP和基因数据，研究人员能够识别与耐药性相关的基因突变，从而揭示耐药机制。这不仅推动了结核病耐药性研究的深入，还为开发新型抗结核药物提供了理论依据。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究人员开发了基于深度学习的耐药性预测模型，显著提高了预测精度。此外，该数据集还被用于研究结核分枝杆菌的进化机制，揭示了耐药性基因的传播规律。这些研究为结核病的防控提供了重要的科学依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集