five

AmelHap pilot: filter1 data

收藏
Mendeley Data2024-05-10 更新2024-06-27 收录
下载链接:
https://zenodo.org/records/6563399
下载链接
链接失效反馈
资源简介:
Honey bee Apis mellifera drones are typically haploid, developing from an unfertilized egg, inheriting only their queen’s alleles and none from the many drones she mated with. Being haploid, the ordered combination or ‘phase’ of alleles is known, making drones a valuable haplotype resource. We collated whole genome sequence data for 688 drones, including 45 newly sequenced Scottish drones, which collectively represent 13 countries, 7 subspecies and various hybrids strains. After alignment to the reference assembly Amel_Hav3.1, and haploid variant calling, we identified 18.9M variants. Whole-genome sequencing data underpinning the dataset is available from the European Nucleotide Archive (ENA), https://www.ebi.ac.uk/ena, with the project accession codes: PRJEB16533, PRJNA311274, PRJNA363032, PRJNA516678, PRJNA544324, and PRJEB39369. Sequencing reads were aligned to the Amel_HAv3.1 reference genome using BWA-MEM v0.7.17. Reads were sorted with SAMtools v1.9 and duplicates marked (MarkDuplicates) with GATK v4.0.11.0. Variants for each sample were called using GATK’s HaplotypeCaller with the following non-default parameters --ERC GVCF, --sample-ploidy 1 and -A AlleleFraction. Joint variant calling was performed across all samples using GATK’s GenomicDBImport and GenotypeGVCFs with --sample-ploidy 1 and a window size of 2.5 Mb. This dataset is the result of applying filters to exclude variants with 'QD<20 || QD>40 || MQ < 50 || SOR >3' in the raw dataset, leaving 16.6M variants. The code used in filtering is outlined here: https://bitbucket.org/scriptBee/hapmap-pilot.
创建时间:
2023-06-28
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。时间为北京时间。

国家海洋科学数据中心 收录

NIH Chest X-rays

Over 112,000 Chest X-ray images from more than 30,000 unique patients

kaggle 收录

2025年中国生理信号挑战赛

数据来源:单导联心电信号,采样率400Hz,信号时长10秒,格式为.mat文件。 训练集:20000条数据,其中1000条有标签。 测试集:10000条无标签数据。

OpenDataLab 收录

O*NET

O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录

Global Administrative Areas (GADM)

GADM是一个全球行政区域数据集,提供了全球各个国家和地区的行政区划边界数据,包括国家、省、市、县等不同层级的行政区域。数据集包含了详细的边界信息,适用于地理信息系统(GIS)和空间分析应用。

gadm.org 收录