gaunernst/voxceleb2-dev-wds
收藏Hugging Face2024-10-26 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/gaunernst/voxceleb2-dev-wds
下载链接
链接失效反馈官方服务:
资源简介:
这是VoxCeleb2开发集的一个副本,采用WebDataset格式。音频数据是原始的AAC编码文件,未经过任何转码。数据集包含1,092,009个样本,涵盖5,994个独特的说话者。数据集被分割成779个约100MB的分片。使用方法包括使用webdataset库和HF datasets库加载和处理数据。原始文件名被保留,下载并解压所有分片后,文件夹结构与原始文件夹相同(包含额外的.cls文件,其中包含预定义的说话者ID到整数的映射)。还可以从`__key__`字段中检索原始的说话者ID和YouTube视频ID。
VoxCeleb2 dev set is a dataset in WebDataset format, containing original AAC-encoded audio files without any transcoding. The dataset includes 1,092,009 samples covering 5,994 unique speakers, split into 779 shards of approximately 100MB each.
提供机构:
gaunernst



