five

mrlom/michael_afton

收藏
Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mrlom/michael_afton
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个批次的数据,每个批次的数据量较大,涉及的特征包括序列(seqs)、ID(ids)、物种(species)和更广泛的分类学信息(broader_taxonomy)。这些特征表明数据集可能与生物学或分类学领域相关,特别是涉及物种分类和序列分析。

The dataset contains multiple batches of data, each batch includes information such as sequences (seqs), identifiers (ids), species, and broader taxonomy. The dataset is divided into multiple batches, each with different numbers of bytes and examples. The total download size and dataset size are also provided.
提供机构:
mrlom
原始信息汇总

数据集概述

特征信息

  • seqs: 数据类型为字符串(string)
  • ids: 数据类型为字符串(string)
  • species: 数据类型为字符串(string)
  • broader_taxonomy: 数据类型为字符串(string)

数据分割

  • batch1: 包含1,003,219个样本,大小为510,875,299字节
  • batch2: 包含1,000,947个样本,大小为540,664,266字节
  • batch3: 包含1,013,196个样本,大小为536,966,370字节
  • batch4: 包含1,000,047个样本,大小为527,376,929字节
  • batch5: 包含1,012,257个样本,大小为490,693,958字节
  • batch6: 包含1,022,305个样本,大小为494,453,404字节
  • batch7: 包含1,030,989个样本,大小为477,623,239字节
  • batch8: 包含1,019,959个样本,大小为632,765,742字节
  • batch9: 包含1,014,144个样本,大小为590,230,312字节
  • batch10: 包含286,240个样本,大小为213,526,489字节
  • batch12: 包含1,019,959个样本,大小为632,765,742字节
  • batch13: 包含1,014,144个样本,大小为590,230,312字节
  • batch14: 包含286,240个样本,大小为213,526,489字节

数据集大小

  • 下载大小: 10,756,084,110字节
  • 数据集大小: 6,451,698,551字节

配置信息

  • config_name: default
    • data_files:
      • batch1: 路径为data/batch1-*
      • batch2: 路径为data/batch2-*
      • batch3: 路径为data/batch3-*
      • batch4: 路径为data/batch4-*
      • batch5: 路径为data/batch5-*
      • batch6: 路径为data/batch6-*
      • batch7: 路径为data/batch7-*
      • batch8: 路径为data/batch8-*
      • batch9: 路径为data/batch9-*
      • batch10: 路径为data/batch10-*
      • batch12: 路径为data/batch12-*
      • batch13: 路径为data/batch13-*
      • batch14: 路径为data/batch14-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作