five

Genomes of bats and two close-related species

收藏
DataCite Commons2025-04-27 更新2025-04-16 收录
下载链接:
https://www.scidb.cn/detail?dataSetId=b10d1b2a1c1145f0ad31decdc7bd72e1
下载链接
链接失效反馈
官方服务:
资源简介:
1. Samples, DNA extraction and genome sequencingAll animal care and research protocols of this study were approved by the Institute of Zoology, Chinese Academy of Sciences.1.1 Sample processingOur bat samples were from two sources, one from the collected dying or injured bat individuals as well as corpses in the field and another from the muscle tissues soaked in anhydrous ethanol. Additionally, two outgroups Amur hedgehog (Erinaceus amurensis) and Chinese mole shrew (Anourosorex squamipes), were sampled from the injured individuals in the wild.1.2 Genomic DNA extractionThe genomic DNA was extracted from the muscle tissue of bat samples. Bat muscle tissues were cut from the euthanasia individuals and then grounded with liquid nitrogen to the lab and finally transferred to nuclear isolation buffer. After a 10 minutes of incubation on the ice, nuclei were concentrated followed by several rounds of filter and centrifugation. The nuclei were then embedded in low melting-point agarose gel and lysed in lysis buffer. EDTA, phenylmethylsulfonyl fluoride (PMSF), and TE buffer were used to purify the genomic DNA. Finally, beta-agarase I was added to the agarose gel to hydrolyze it and recover high-molecular-weight (HMW) DNA. For DNA quantification, we used Qubit, and for DNA fragment size evaluation, we used pulsed-field gel electrophoresis (PFGE).1.3 Library construction and sequencingThe HMW genomic DNA was used to construct the single-tube Long Fragment Read (stLFR) library using the MGI Easy stLFR Library Prep Kit (MGI, Shenzhen, China) following the manufacturer’s protocol(Wang et al., 2019). Transposons were used to insert a hybridization sequence every 200-1000 bp (base pairs) on HMW genomic DNA molecules. Then the transposon-integrated DNA was mixed with beads. Each bead contained 400,000 copies of an adapter sequence which involved a unique barcode shared by all adapters on the bead, a common PCR primer site, and a common capture sequence complementary to the sequence on the integrated transposons. After capturing the genomic DNA on the beads, the transposons were ligated to the barcode adapters. PCR was performed after the ligation step. The stLFR library was sequenced on BGISEQ 500 and DNBSEQ T1 platforms. We also constructed Hi-C libraries from bats to anchor scaffolds onto the chromosome. In brief, freshly cut muscle tissues were vacuum infiltrated in nuclei isolation buffer supplemented with 2% formaldehyde. The addition of glycine and additional vacuum infiltration stopped crosslinking. Fixed tissue was grounded to powder before being resuspended in nuclei isolation buffer to obtain a nuclei suspension. Purified nuclei were digested with MboI restriction enzyme and stained by biotin-14-dATP. T4 DNA polymerase removed biotin-14-dATP from non-ligated DNA ends. The ligated DNA was sheared into 300-600 bp fragments, blunt-end repaired and A-tailed, and purified using biotin-streptavidin-mediated pull down. The Hi-C libraries were then sequenced on BGISEQ 500/DNBSEQ T1 platform. In total, we obtained an average size of 365 Gb (gigabase) raw stLFR data for 19 species, and 362Gb raw Hi-C data on average for 12 species (Supplementary Table 3).1.4 Data quality controlSince stLFR reads contained barcode sequences, we separated the barcode from genomic sequencing reads first. The genomic sequencing reads were then filtered using SOAPfilter v2.2 software. Reads with more than 10% low-quality bases (Q<10) were discarded. Adapter contamination and PCR duplication reads were also filtered. Meanwhile, we used SOAPnuke v1.5.6 software to filter Hi-C reads. Reads with more than 50% bases whose quality is lower than five5 or N rate greater than 5% were discarded. Reads contaminated by adapters were also filtered. Following read filtration, we obtained an average of 231 Gb clean reads from the stLFR library and 352Gb clean reads from the Hi-C library. The average Q30 of stLFR clean data and Hi-C clean data were 90.90% and 91.66%, respectively (Supplementary Table 3).2. Genome assembly2.1 Genome assemblyWe assembled the bat genomes using the stlfr2supernova pipeline (https://github.com/BGI-Qingdao/stlfr2supernova_pipeline). Briefly, we first split the barcode sequences from the raw reads. Then, the split reads were filtered using SOAPfilter v2.2 with the parameter “-y -p -M 2 -f -1 -Q 10”. The clean reads and barcode frequency file were transformed into the input format of Supernova v2.1.1(Weisenfeld et al., 2017). And we run Supernova v2.1.1 with command “supernova run --maxreads=2140000000 --nopreflight --accept-extreme-coverage”. The initial assembly was generated under “pseudohap” style in Supernova. After we got the initial assembly, we used Gapcloser software to fill gaps between contigs within the same scaffolds. Since the initial assembly size was a little large than the estimated size, we used purge_haplotigs software v1.1.1(Roach et al., 2018) to remove the redundancy sequences to get the draft assembly.2.2 Chromosome anchoringA total of twelve samples had Hi-C data except seven bats, Harpiocephalus harpia, Tylonycteris fulvida, Pipistrellus javanicus, Scotomanes ornatus, Barbastella leucomelas, Scotophilus kuhlii and Chaerephon plicatus. Hi-C clean reads were preprocessed using HiC-Pro pipeline v2.8.0(Servant et al., 2015) to obtain valid pairs of reads involving two different restriction fragments for anchoring. Valid Hi-C read pairs were was were aligned to the genome using Juicer v1.5 pipeline(Durand et al., 2016), and duplicates and near-duplicates were removed. A list of Hi-C contacts was generated from valid read pairs. The draft assembly and Hi-C contacts list were put into a 3D de novo assembly (3d-dna, v170123) pipeline(Dudchenko et al., 2017). And the karyotype of species was also used as an input parameter to assist clustering. After a series of iterations of misjoin correction, scaffolds were anchored, ordered, and oriented to pseudochromosomes. To visualize the contact density map, the software Juicebox v1.11.08 software was utilized, followed by a manual calibration if there was still any misjoin. The scaffolding fault in the assembly was manually polished.
提供机构:
Science Data Bank
创建时间:
2023-09-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作