five

OMIM (Online Mendelian Inheritance in Man)|遗传学数据集|基因研究数据集

收藏
OPEN DATA NETWORK2024-07-19 更新2024-10-26 收录
遗传学
基因研究
下载链接:
https://www.opendatanetwork.com/dataset/datadiscovery.nlm.nih.gov/hra4-qimf
下载链接
链接失效反馈
资源简介:
Comprehensive, authoritative, and timely compendium of human genes and genetic phenotypes.
提供机构:
datadiscovery.nlm.nih.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
OMIM(Online Mendelian Inheritance in Man)数据集的构建基于对人类遗传疾病的系统性编目和分类。该数据集通过整合来自全球各地的遗传学研究成果,包括基因突变、疾病表型和遗传模式等信息,形成了一个全面的数据库。其构建过程涉及对医学文献的广泛检索、数据的标准化处理以及专家的审核,确保了数据的准确性和权威性。
特点
OMIM数据集以其详尽的遗传疾病信息和多维度的数据结构著称。该数据集不仅涵盖了数千种单基因疾病的详细描述,还包括了基因与疾病之间的关联分析、遗传模式和临床表现的多样性。此外,OMIM还提供了基因组位置、突变类型和相关文献的链接,为研究人员提供了丰富的资源。
使用方法
OMIM数据集广泛应用于遗传学、医学和生物信息学领域。研究人员可以通过搜索特定基因或疾病条目,获取详细的遗传信息和相关文献。临床医生可以利用该数据集进行遗传咨询和诊断,辅助制定个性化治疗方案。此外,OMIM还支持数据下载和API接口,方便科研人员进行大规模数据分析和集成研究。
背景与挑战
背景概述
OMIM(Online Mendelian Inheritance in Man)数据集,由约翰霍普金斯大学的维克多·麦库西克博士于1960年代创建,是一个全面的人类基因和遗传疾病数据库。该数据集的核心研究问题在于系统地记录和分类人类遗传疾病及其相关基因,为遗传学、医学和生物信息学领域的研究提供了宝贵的资源。OMIM不仅收录了数千种遗传疾病的详细信息,还包括了基因的定位、功能及其与疾病的关系,极大地推动了遗传病诊断和治疗的发展。
当前挑战
OMIM数据集在构建和维护过程中面临诸多挑战。首先,随着基因组学和遗传学研究的快速发展,数据集需要不断更新以反映最新的科学发现,这要求高效的更新机制和严格的数据验证流程。其次,遗传疾病的复杂性和多样性使得数据的标准化和分类变得尤为困难,需要精确的分类系统和强大的数据处理能力。此外,数据集的公开性和可访问性也是一个重要挑战,确保全球研究者能够便捷地获取和使用这些数据,以促进跨学科的合作和研究进展。
发展历史
创建时间与更新
OMIM(Online Mendelian Inheritance in Man)数据集创建于1966年,由Victor A. McKusick博士发起,旨在系统地记录人类遗传疾病的基因和遗传信息。该数据集自创建以来持续更新,最新的更新记录至2023年,确保了其内容的时效性和准确性。
重要里程碑
OMIM数据集的重要里程碑包括1987年实现在线访问,极大地提高了数据的可访问性和传播速度。1995年,OMIM与美国国家生物技术信息中心(NCBI)合作,进一步整合了生物信息资源,增强了其在全球遗传学研究中的影响力。2000年后,OMIM开始引入基因组学和蛋白质组学数据,使其成为综合性的遗传信息数据库。
当前发展情况
当前,OMIM数据集已成为全球遗传学和医学研究的核心资源,涵盖了超过22,000个条目,详细记录了人类基因、遗传疾病及其相关文献。OMIM的持续更新和扩展,不仅支持了基础遗传学研究,还为临床诊断和个性化医疗提供了重要参考。通过与国际研究机构的合作,OMIM不断引入最新的基因组数据和分析工具,进一步提升了其在生物医学领域的应用价值和影响力。
发展历程
  • OMIM项目由维克多·A·麦库西克博士在约翰斯·霍普金斯大学启动,旨在创建一个关于人类孟德尔遗传疾病的综合数据库。
    1960年
  • OMIM数据库首次通过互联网向公众开放,标志着其从纸质版向数字化版本的重大转变。
    1987年
  • OMIM开始与美国国家生物技术信息中心(NCBI)合作,进一步扩展其在线访问和数据整合能力。
    1995年
  • OMIM数据库引入了基因组浏览器,使用户能够更直观地查看基因和相关疾病的遗传信息。
    2000年
  • OMIM数据库进行了重大更新,增加了对基因组学和分子遗传学最新进展的覆盖,提升了数据的质量和深度。
    2010年
  • OMIM继续扩展其数据库,涵盖了更多罕见疾病和复杂性状的遗传信息,同时加强了与其他生物信息学资源的整合。
    2020年
常用场景
经典使用场景
在遗传学领域,OMIM(Online Mendelian Inheritance in Man)数据集被广泛用于研究单基因遗传病的分子基础。通过整合来自全球的遗传信息,OMIM为科学家提供了详尽的基因突变与疾病关联的数据库,使得研究人员能够深入探索特定基因在疾病发生中的作用。
衍生相关工作
基于OMIM数据集,许多后续研究工作得以展开。例如,研究人员利用OMIM中的数据开发了多种遗传病预测模型,这些模型在临床试验中表现出色。此外,OMIM还激发了大规模基因组关联研究(GWAS),进一步揭示了复杂疾病的多基因遗传基础。
数据集最近研究
最新研究方向
在遗传学领域,OMIM(Online Mendelian Inheritance in Man)数据集的最新研究方向主要集中在利用其丰富的遗传疾病信息进行精准医学的推进。研究者们通过整合OMIM中的基因型与表型数据,开发新的算法和模型,以提高对复杂疾病的预测和诊断能力。此外,OMIM数据集还被广泛应用于基因组学研究,特别是在罕见病和遗传病的基因定位和功能解析方面,为个性化治疗提供了重要的科学依据。这些研究不仅推动了遗传学的基础研究,也为临床实践中的精准医疗策略提供了有力支持。
相关研究论文
  • 1
    OMIM.org: Online Mendelian Inheritance in Man (OMIM®), an Online Catalog of Human Genes and Genetic DisordersNational Center for Biotechnology Information · 2007年
  • 2
    The Online Mendelian Inheritance in Man (OMIM) Database: Linking Human Genetics and GenomicsNational Center for Biotechnology Information · 2020年
  • 3
    OMIM: From Genotype to PhenotypeNational Center for Biotechnology Information · 2011年
  • 4
    OMIM: Integrating Genetics and Genomics for Human HealthNational Center for Biotechnology Information · 2015年
  • 5
    OMIM: A Comprehensive, Up-to-Date Database of Human Genes and Genetic DisordersNational Center for Biotechnology Information · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录