Codec-SUPERB/crema_d_unit
收藏Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Codec-SUPERB/crema_d_unit
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: unit
sequence:
sequence: int64
splits:
- name: academicodec_hifi_16k_320d
num_bytes: 60046688
num_examples: 7438
- name: academicodec_hifi_16k_320d_large_uni
num_bytes: 60046688
num_examples: 7438
- name: academicodec_hifi_24k_320d
num_bytes: 89798688
num_examples: 7438
- name: audiodec_24k_320d
num_bytes: 191074496
num_examples: 7438
- name: dac_16k
num_bytes: 179292704
num_examples: 7438
- name: dac_24k
num_bytes: 715423744
num_examples: 7438
- name: dac_44k
num_bytes: 231507464
num_examples: 7438
- name: encodec_24k_12bps
num_bytes: 357923712
num_examples: 7438
- name: encodec_24k_1_5bps
num_bytes: 45111184
num_examples: 7438
- name: encodec_24k_24bps
num_bytes: 715423744
num_examples: 7438
- name: encodec_24k_3bps
num_bytes: 89798688
num_examples: 7438
- name: encodec_24k_6bps
num_bytes: 179173696
num_examples: 7438
- name: funcodec_en_libritts_16k_gr1nq32ds320
num_bytes: 479311872
num_examples: 7438
- name: funcodec_en_libritts_16k_gr8nq32ds320
num_bytes: 479311872
num_examples: 7438
- name: funcodec_en_libritts_16k_nq32ds320
num_bytes: 477407744
num_examples: 7438
- name: funcodec_en_libritts_16k_nq32ds640
num_bytes: 239391744
num_examples: 7438
- name: funcodec_zh_en_16k_nq32ds320
num_bytes: 477407744
num_examples: 7438
- name: funcodec_zh_en_16k_nq32ds640
num_bytes: 239391744
num_examples: 7438
- name: speech_tokenizer_16k
num_bytes: 119669696
num_examples: 7438
download_size: 671388125
dataset_size: 5426513912
configs:
- config_name: default
data_files:
- split: academicodec_hifi_16k_320d
path: data/academicodec_hifi_16k_320d-*
- split: academicodec_hifi_16k_320d_large_uni
path: data/academicodec_hifi_16k_320d_large_uni-*
- split: academicodec_hifi_24k_320d
path: data/academicodec_hifi_24k_320d-*
- split: audiodec_24k_320d
path: data/audiodec_24k_320d-*
- split: dac_16k
path: data/dac_16k-*
- split: dac_24k
path: data/dac_24k-*
- split: dac_44k
path: data/dac_44k-*
- split: encodec_24k_12bps
path: data/encodec_24k_12bps-*
- split: encodec_24k_1_5bps
path: data/encodec_24k_1_5bps-*
- split: encodec_24k_24bps
path: data/encodec_24k_24bps-*
- split: encodec_24k_3bps
path: data/encodec_24k_3bps-*
- split: encodec_24k_6bps
path: data/encodec_24k_6bps-*
- split: funcodec_en_libritts_16k_gr1nq32ds320
path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- split: funcodec_en_libritts_16k_gr8nq32ds320
path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds320
path: data/funcodec_en_libritts_16k_nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds640
path: data/funcodec_en_libritts_16k_nq32ds640-*
- split: funcodec_zh_en_16k_nq32ds320
path: data/funcodec_zh_en_16k_nq32ds320-*
- split: funcodec_zh_en_16k_nq32ds640
path: data/funcodec_zh_en_16k_nq32ds640-*
- split: speech_tokenizer_16k
path: data/speech_tokenizer_16k-*
---
提供机构:
Codec-SUPERB
原始信息汇总
数据集概述
数据集特征
- id: 数据类型为字符串。
- unit: 包含一个序列,序列类型为int64。
数据分割
数据集包含多个分割,每个分割具有不同的名称、字节数和示例数量:
- academicodec_hifi_16k_320d: 60046688字节,7438个示例。
- academicodec_hifi_16k_320d_large_uni: 60046688字节,7438个示例。
- academicodec_hifi_24k_320d: 89798688字节,7438个示例。
- audiodec_24k_320d: 191074496字节,7438个示例。
- dac_16k: 179292704字节,7438个示例。
- dac_24k: 715423744字节,7438个示例。
- dac_44k: 231507464字节,7438个示例。
- encodec_24k_12bps: 357923712字节,7438个示例。
- encodec_24k_1_5bps: 45111184字节,7438个示例。
- encodec_24k_24bps: 715423744字节,7438个示例。
- encodec_24k_3bps: 89798688字节,7438个示例。
- encodec_24k_6bps: 179173696字节,7438个示例。
- funcodec_en_libritts_16k_gr1nq32ds320: 479311872字节,7438个示例。
- funcodec_en_libritts_16k_gr8nq32ds320: 479311872字节,7438个示例。
- funcodec_en_libritts_16k_nq32ds320: 477407744字节,7438个示例。
- funcodec_en_libritts_16k_nq32ds640: 239391744字节,7438个示例。
- funcodec_zh_en_16k_nq32ds320: 477407744字节,7438个示例。
- funcodec_zh_en_16k_nq32ds640: 239391744字节,7438个示例。
- speech_tokenizer_16k: 119669696字节,7438个示例。
数据集大小
- 下载大小: 671388125字节。
- 数据集大小: 5426513912字节。
配置
- 默认配置: 包含多个数据文件,每个文件对应一个分割,路径格式为
data/{分割名称}-*。
搜集汇总
背景与挑战
背景概述
该数据集是Codec-SUPERB项目的一部分,专注于音频编解码器任务,包含7438个示例,每个示例由ID和音频单元序列组成。数据集提供多种编解码器配置的分割(如academicodec、encodec、funcodec等),覆盖不同采样率和比特率,总大小约为5.4GB,适用于音频处理模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



