five

dbSNP|遗传变异数据集|生物信息学数据集

收藏
re3data.org2024-05-31 收录
遗传变异
生物信息学
下载链接:
https://www.re3data.org/repository/r3d100010652
下载链接
链接失效反馈
资源简介:
The NCBI Short Genetic Variations database, commonly known as dbSNP, catalogs short variations in nucleotide sequences from a wide range of organisms. These variations include single nucleotide variations, short nucleotide insertions and deletions, short tandem repeats and microsatellites. Short Genetic Variations may be common, thus representing true polymorphisms, or they may be rare. Some rare human entries have additional information associated withthem, including disease associations, genotype information and allele origin, as some variations are somatic rather than germline events. ***NCBI will phase out support for non-human organism data in dbSNP and dbVar beginning on September 1, 2017***

NCBI简短遗传变异数据库,通常称为dbSNP,收录了多种生物的核苷酸序列中的短片段变异。这些变异包括单个核苷酸变异、短片段插入和缺失、短串联重复序列和微卫星。短片段遗传变异可能普遍存在,从而代表真正的多态性,也可能较为罕见。某些罕见的人类条目关联有额外的信息,包括疾病相关性、基因型信息和等位基因起源,因为某些变异为体细胞事件而非生殖细胞事件。自2017年9月1日起,NCBI将逐步停止对dbSNP和dbVar中非人类生物数据的支持。
提供机构:
SNV
AI搜集汇总
数据集介绍
main_image_url
构建方式
dbSNP(Database of Single Nucleotide Polymorphisms)数据集的构建基于全球范围内的基因组测序数据,通过整合来自不同研究项目和公共数据库的单核苷酸多态性(SNP)信息。该数据集的构建过程包括数据收集、质量控制、注释和标准化等多个步骤。首先,从各种基因组测序项目中提取SNP数据,随后进行严格的质量筛选,排除低质量和重复的变异。最后,通过与已知基因组特征的比对,对SNP进行详细注释,确保数据的准确性和完整性。
特点
dbSNP数据集以其广泛性和多样性著称,涵盖了人类基因组中的大量SNP位点,包括常见的和罕见的变异。该数据集不仅提供了SNP的基本信息,如位置、类型和频率,还包含了详细的注释信息,如功能影响和疾病关联。此外,dbSNP数据集具有高度的更新频率,能够及时反映最新的基因组研究成果,使其成为基因组学研究和临床应用的重要资源。
使用方法
dbSNP数据集在基因组学研究中具有广泛的应用,研究人员可以通过访问dbSNP数据库,获取特定SNP的详细信息,用于基因变异分析、疾病关联研究以及药物开发。此外,该数据集还可用于基因组数据的注释和标准化,提高数据的可比性和可重复性。临床医生和遗传咨询师也可以利用dbSNP数据集,为患者提供个性化的遗传咨询和诊断服务。通过API接口或直接下载,用户可以方便地访问和使用dbSNP数据集,满足不同研究需求。
背景与挑战
背景概述
dbSNP(Database of Single Nucleotide Polymorphisms)是由美国国家生物技术信息中心(NCBI)维护的一个综合性数据库,旨在收集和整理人类基因组中的单核苷酸多态性(SNPs)。自1998年首次发布以来,dbSNP已成为基因组学研究的重要资源,为科学家提供了大量的SNP数据,这些数据在遗传疾病研究、药物开发和个性化医疗中发挥了关键作用。通过不断更新和扩展,dbSNP不仅收录了人类基因组的SNP,还涵盖了其他物种的SNP数据,极大地促进了跨物种的遗传学比较研究。
当前挑战
尽管dbSNP在基因组学领域具有重要地位,但其构建过程中仍面临诸多挑战。首先,SNP数据的准确性依赖于高质量的测序技术和数据分析方法,任何技术上的偏差都可能导致数据的不准确。其次,随着基因组测序技术的快速发展,新发现的SNP数量呈指数增长,如何高效地整合和验证这些新数据成为一大难题。此外,不同研究团队使用不同的命名和注释标准,导致数据的一致性和可比性问题。最后,随着基因组数据的隐私和伦理问题日益凸显,如何在保护个人隐私的前提下,充分利用这些数据进行科学研究,也是dbSNP需要解决的重要问题。
发展历史
创建时间与更新
dbSNP(单核苷酸多态性数据库)由美国国家生物技术信息中心(NCBI)于2000年创建,旨在收集和整理人类基因组中的单核苷酸多态性信息。自创建以来,dbSNP经历了多次重大更新,最近一次主要更新发生在2021年,引入了更多物种的单核苷酸多态性数据,并提升了数据的质量和完整性。
重要里程碑
dbSNP的重要里程碑之一是其在2005年发布的版本129,该版本首次包含了超过1000万个单核苷酸多态性位点,极大地丰富了数据库的内容。2012年,dbSNP发布了版本137,引入了对非人类物种单核苷酸多态性的支持,标志着其应用范围的扩展。2018年,dbSNP版本151的发布,进一步整合了来自全基因组关联研究(GWAS)的数据,增强了其在复杂疾病研究中的应用价值。
当前发展情况
当前,dbSNP已成为全球基因组学研究中不可或缺的资源,其数据被广泛应用于遗传变异分析、疾病关联研究以及药物基因组学等领域。随着新一代测序技术的快速发展,dbSNP不断更新和扩展其数据库,以适应日益增长的基因组数据需求。此外,dbSNP还积极参与国际合作,推动全球基因组数据的共享和标准化,为精准医学的发展提供了坚实的基础。
发展历程
  • dbSNP首次发表,作为人类基因组计划的一部分,旨在收集和整理人类基因组中的单核苷酸多态性数据。
    1998年
  • dbSNP数据库正式上线,提供在线查询和下载服务,成为基因组学研究的重要资源。
    2000年
  • dbSNP开始收录非人类物种的单核苷酸多态性数据,扩展了其应用范围。
    2003年
  • dbSNP发布第130版,数据量大幅增加,涵盖了更多物种和基因组区域。
    2007年
  • dbSNP引入新的数据分类和注释系统,提高了数据的质量和可用性。
    2012年
  • dbSNP发布第151版,整合了来自多个大规模基因组项目的多态性数据,进一步丰富了数据库内容。
    2018年
常用场景
经典使用场景
在基因组学领域,dbSNP数据集被广泛用于单核苷酸多态性(SNP)的注释和分析。该数据集收录了全球范围内大量个体的SNP变异信息,为研究人员提供了丰富的遗传变异资源。通过与基因组序列比对,研究者能够识别和注释特定基因区域中的SNP,从而深入探讨这些变异在疾病发生、药物反应及个体差异中的作用。
解决学术问题
dbSNP数据集在解决遗传学和基因组学中的多个学术问题方面发挥了关键作用。它为研究人员提供了大规模的SNP变异数据,有助于揭示基因与疾病之间的关联,推动个性化医疗的发展。此外,该数据集还支持基因组变异的系统性研究,帮助科学家理解人类基因组的多样性及其在进化中的作用,从而为遗传病的预防和治疗提供理论依据。
衍生相关工作
dbSNP数据集的广泛应用催生了众多相关研究工作。例如,基于dbSNP的变异信息,研究者开发了多种基因组注释工具和数据库,如Ensembl和UCSC Genome Browser,这些工具极大地促进了基因组数据的整合与分析。此外,dbSNP还为大规模基因组关联研究(GWAS)提供了基础数据,推动了复杂疾病遗传机制的深入研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录