five

AmelHap pilot: filter1 data

收藏
Mendeley Data2024-05-10 更新2024-06-27 收录
下载链接:
https://zenodo.org/records/6563399
下载链接
链接失效反馈
资源简介:
Honey bee Apis mellifera drones are typically haploid, developing from an unfertilized egg, inheriting only their queen’s alleles and none from the many drones she mated with. Being haploid, the ordered combination or ‘phase’ of alleles is known, making drones a valuable haplotype resource. We collated whole genome sequence data for 688 drones, including 45 newly sequenced Scottish drones, which collectively represent 13 countries, 7 subspecies and various hybrids strains. After alignment to the reference assembly Amel_Hav3.1, and haploid variant calling, we identified 18.9M variants. Whole-genome sequencing data underpinning the dataset is available from the European Nucleotide Archive (ENA), https://www.ebi.ac.uk/ena, with the project accession codes: PRJEB16533, PRJNA311274, PRJNA363032, PRJNA516678, PRJNA544324, and PRJEB39369. Sequencing reads were aligned to the Amel_HAv3.1 reference genome using BWA-MEM v0.7.17. Reads were sorted with SAMtools v1.9 and duplicates marked (MarkDuplicates) with GATK v4.0.11.0. Variants for each sample were called using GATK’s HaplotypeCaller with the following non-default parameters --ERC GVCF, --sample-ploidy 1 and -A AlleleFraction. Joint variant calling was performed across all samples using GATK’s GenomicDBImport and GenotypeGVCFs with --sample-ploidy 1 and a window size of 2.5 Mb. This dataset is the result of applying filters to exclude variants with 'QD<20 || QD>40 || MQ < 50 || SOR >3' in the raw dataset, leaving 16.6M variants. The code used in filtering is outlined here: https://bitbucket.org/scriptBee/hapmap-pilot.
创建时间:
2023-06-28
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。时间为北京时间。

国家海洋科学数据中心 收录

中国沙漠边界数据集(2000-2020年)

  本数据集基于Landsat遥感影像,通过辐射定标和大气校正等预处理算法得到沙漠区域影像,通过人工目视解译及波段指数的方法提提取沙漠边界区域。数据集涉及的沙漠主要包括中国八大沙漠。分别为腾格里沙漠,塔克拉马干沙漠,巴丹吉林沙漠,库布奇沙漠,乌兰布和沙漠,库木塔格沙漠,古尔班通古特沙漠,...

国家冰川冻土沙漠科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

YouTube-English

该数据集包含从各种YouTube频道提取的英语音频片段以及相应的转录元数据。数据用于训练自动语音识别(ASR)模型。数据来源于YouTube频道,处理过程包括下载、分割和保存音频及元数据。数据集总结部分详细列出了每个频道的视频数量、持续时间和占总数据集的百分比。

huggingface 收录

TPTP

TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录