gnomAD|基因组研究数据集|遗传变异数据集
收藏
- gnomAD数据集首次发布,整合了ExAC、Genome Aggregation Database (GAD) 和千人基因组计划的数据,旨在提供一个全面的基因变异数据库。
- gnomAD发布了其第二版数据集,增加了来自更多人群的基因组数据,并改进了数据质量和注释。
- gnomAD发布了第三版数据集,引入了更多的基因组数据,包括来自不同种族和民族的样本,进一步提升了数据集的多样性和覆盖范围。
- gnomAD开始提供对非编码区域变异的详细注释,扩展了其应用范围,特别是在理解基因调控和疾病关联方面。
- gnomAD发布了其第四版数据集,进一步优化了数据处理流程,增加了对罕见变异的检测和注释,提升了数据集的科学价值和应用潜力。
- 1The Genome Aggregation Database (gnomAD)Broad Institute of MIT and Harvard · 2018年
- 2gnomAD v3: A New Resource for Genome-Wide Variant CallsBroad Institute of MIT and Harvard · 2020年
- 3gnomAD and the Future of Genetic DatabasesUniversity of California, San Francisco · 2021年
- 4Using gnomAD to Identify Rare Genetic Variants in Population StudiesUniversity of Washington · 2019年
- 5gnomAD: Harnessing the Power of Exome and Genome Sequencing Data for Precision MedicineBroad Institute of MIT and Harvard · 2022年
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录