JST-SUPERB/Gaussian_unit_part2
收藏Hugging Face2024-07-03 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/JST-SUPERB/Gaussian_unit_part2
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: encodec_24k_12bps
path: data/encodec_24k_12bps-*
- split: encodec_24k_1_5bps
path: data/encodec_24k_1_5bps-*
- split: encodec_24k_24bps
path: data/encodec_24k_24bps-*
- split: encodec_24k_3bps
path: data/encodec_24k_3bps-*
- split: encodec_24k_6bps
path: data/encodec_24k_6bps-*
- split: funcodec_en_libritts_16k_gr1nq32ds320
path: data/funcodec_en_libritts_16k_gr1nq32ds320-*
- split: funcodec_en_libritts_16k_gr8nq32ds320
path: data/funcodec_en_libritts_16k_gr8nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds320
path: data/funcodec_en_libritts_16k_nq32ds320-*
- split: funcodec_en_libritts_16k_nq32ds640
path: data/funcodec_en_libritts_16k_nq32ds640-*
- split: funcodec_zh_en_16k_nq32ds320
path: data/funcodec_zh_en_16k_nq32ds320-*
- split: funcodec_zh_en_16k_nq32ds640
path: data/funcodec_zh_en_16k_nq32ds640-*
dataset_info:
features:
- name: speech_input
dtype: string
- name: noisy_10dB_transcription_whisper-small.en
dtype: string
- name: noisy_5dB_transcription_whisper-small.en
dtype: string
- name: noisy_0dB_transcription_whisper-small.en
dtype: string
- name: noisy_-5dB_transcription_whisper-small.en
dtype: string
- name: noisy_-10dB_transcription_whisper-small.en
dtype: string
- name: noisy_10dB_transcription_whisper-medium.en
dtype: string
- name: noisy_5dB_transcription_whisper-medium.en
dtype: string
- name: noisy_0dB_transcription_whisper-medium.en
dtype: string
- name: noisy_-5dB_transcription_whisper-medium.en
dtype: string
- name: noisy_-10dB_transcription_whisper-medium.en
dtype: string
- name: noisy_10dB_transcription_whisper-large-v3
dtype: string
- name: noisy_5dB_transcription_whisper-large-v3
dtype: string
- name: noisy_0dB_transcription_whisper-large-v3
dtype: string
- name: noisy_-5dB_transcription_whisper-large-v3
dtype: string
- name: noisy_-10dB_transcription_whisper-large-v3
dtype: string
- name: output
dtype: string
- name: clean_audio_transcription_whisper-small.en
dtype: string
- name: clean_audio_transcription_whisper-medium.en
dtype: string
- name: clean_audio_transcription_whisper-large-v3
dtype: string
- name: clean_audio_unit
sequence:
sequence: int64
- name: noisy_10dB_unit
sequence:
sequence: int64
- name: noisy_5dB_unit
sequence:
sequence: int64
- name: noisy_0dB_unit
sequence:
sequence: int64
- name: noisy_-5dB_unit
sequence:
sequence: int64
- name: noisy_-10dB_unit
sequence:
sequence: int64
splits:
- name: encodec_24k_12bps
num_bytes: 1462219137
num_examples: 5135
- name: encodec_24k_1_5bps
num_bytes: 193385361
num_examples: 5135
- name: encodec_24k_24bps
num_bytes: 2912314881
num_examples: 5135
- name: encodec_24k_3bps
num_bytes: 374647329
num_examples: 5135
- name: encodec_24k_6bps
num_bytes: 737171265
num_examples: 5135
- name: funcodec_en_libritts_16k_gr1nq32ds320
num_bytes: 1948261377
num_examples: 5135
- name: funcodec_en_libritts_16k_gr8nq32ds320
num_bytes: 1948261377
num_examples: 5135
- name: funcodec_en_libritts_16k_nq32ds320
num_bytes: 1948116993
num_examples: 5135
- name: funcodec_en_libritts_16k_nq32ds640
num_bytes: 984046593
num_examples: 5135
- name: funcodec_zh_en_16k_nq32ds320
num_bytes: 1948116993
num_examples: 5135
- name: funcodec_zh_en_16k_nq32ds640
num_bytes: 984046593
num_examples: 5135
download_size: 2472709354
dataset_size: 15440587899
---
# Dataset Card for "Gaussian_unit_part2"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
配置项:
- 配置名称:default
数据文件:
- 拆分:encodec_24k_12bps
路径:data/encodec_24k_12bps-*
- 拆分:encodec_24k_1_5bps
路径:data/encodec_24k_1_5bps-*
- 拆分:encodec_24k_24bps
路径:data/encodec_24k_24bps-*
- 拆分:encodec_24k_3bps
路径:data/encodec_24k_3bps-*
- 拆分:encodec_24k_6bps
路径:data/encodec_24k_6bps-*
- 拆分:funcodec_en_libritts_16k_gr1nq32ds320
路径:data/funcodec_en_libritts_16k_gr1nq32ds320-*
- 拆分:funcodec_en_libritts_16k_gr8nq32ds320
路径:data/funcodec_en_libritts_16k_gr8nq32ds320-*
- 拆分:funcodec_en_libritts_16k_nq32ds320
路径:data/funcodec_en_libritts_16k_nq32ds320-*
- 拆分:funcodec_en_libritts_16k_nq32ds640
路径:data/funcodec_en_libritts_16k_nq32ds640-*
- 拆分:funcodec_zh_en_16k_nq32ds320
路径:data/funcodec_zh_en_16k_nq32ds320-*
- 拆分:funcodec_zh_en_16k_nq32ds640
路径:data/funcodec_zh_en_16k_nq32ds640-*
数据集信息:
特征字段:
- 字段名:语音输入(speech_input)
数据类型:字符串
- 字段名:信噪比10dB带噪语音的转录结果(noisy_10dB_transcription_whisper-small.en)
数据类型:字符串
- 字段名:信噪比5dB带噪语音的转录结果(noisy_5dB_transcription_whisper-small.en)
数据类型:字符串
- 字段名:信噪比0dB带噪语音的转录结果(noisy_0dB_transcription_whisper-small.en)
数据类型:字符串
- 字段名:信噪比-5dB带噪语音的转录结果(noisy_-5dB_transcription_whisper-small.en)
数据类型:字符串
- 字段名:信噪比-10dB带噪语音的转录结果(noisy_-10dB_transcription_whisper-small.en)
数据类型:字符串
- 字段名:信噪比10dB带噪语音的转录结果(noisy_10dB_transcription_whisper-medium.en)
数据类型:字符串
- 字段名:信噪比5dB带噪语音的转录结果(noisy_5dB_transcription_whisper-medium.en)
数据类型:字符串
- 字段名:信噪比0dB带噪语音的转录结果(noisy_0dB_transcription_whisper-medium.en)
数据类型:字符串
- 字段名:信噪比-5dB带噪语音的转录结果(noisy_-5dB_transcription_whisper-medium.en)
数据类型:字符串
- 字段名:信噪比-10dB带噪语音的转录结果(noisy_-10dB_transcription_whisper-medium.en)
数据类型:字符串
- 字段名:信噪比10dB带噪语音的转录结果(noisy_10dB_transcription_whisper-large-v3)
数据类型:字符串
- 字段名:信噪比5dB带噪语音的转录结果(noisy_5dB_transcription_whisper-large-v3)
数据类型:字符串
- 字段名:信噪比0dB带噪语音的转录结果(noisy_0dB_transcription_whisper-large-v3)
数据类型:字符串
- 字段名:信噪比-5dB带噪语音的转录结果(noisy_-5dB_transcription_whisper-large-v3)
数据类型:字符串
- 字段名:信噪比-10dB带噪语音的转录结果(noisy_-10dB_transcription_whisper-large-v3)
数据类型:字符串
- 字段名:输出(output)
数据类型:字符串
- 字段名:纯净语音的转录结果(clean_audio_transcription_whisper-small.en)
数据类型:字符串
- 字段名:纯净语音的转录结果(clean_audio_transcription_whisper-medium.en)
数据类型:字符串
- 字段名:纯净语音的转录结果(clean_audio_transcription_whisper-large-v3)
数据类型:字符串
- 字段名:纯净语音单元序列(clean_audio_unit)
数据类型:嵌套64位整数序列
- 字段名:信噪比10dB带噪语音单元序列(noisy_10dB_unit)
数据类型:嵌套64位整数序列
- 字段名:信噪比5dB带噪语音单元序列(noisy_5dB_unit)
数据类型:嵌套64位整数序列
- 字段名:信噪比0dB带噪语音单元序列(noisy_0dB_unit)
数据类型:嵌套64位整数序列
- 字段名:信噪比-5dB带噪语音单元序列(noisy_-5dB_unit)
数据类型:嵌套64位整数序列
- 字段名:信噪比-10dB带噪语音单元序列(noisy_-10dB_unit)
数据类型:嵌套64位整数序列
数据拆分:
- 拆分名称:encodec_24k_12bps
字节数:1462219137
样本数:5135
- 拆分名称:encodec_24k_1_5bps
字节数:193385361
样本数:5135
- 拆分名称:encodec_24k_24bps
字节数:2912314881
样本数:5135
- 拆分名称:encodec_24k_3bps
字节数:374647329
样本数:5135
- 拆分名称:encodec_24k_6bps
字节数:737171265
样本数:5135
- 拆分名称:funcodec_en_libritts_16k_gr1nq32ds320
字节数:1948261377
样本数:5135
- 拆分名称:funcodec_en_libritts_16k_gr8nq32ds320
字节数:1948261377
样本数:5135
- 拆分名称:funcodec_en_libritts_16k_nq32ds320
字节数:1948116993
样本数:5135
- 拆分名称:funcodec_en_libritts_16k_nq32ds640
字节数:984046593
样本数:5135
- 拆分名称:funcodec_zh_en_16k_nq32ds320
字节数:1948116993
样本数:5135
- 拆分名称:funcodec_zh_en_16k_nq32ds640
字节数:984046593
样本数:5135
下载总大小:2472709354 字节
数据集总占用大小:15440587899 字节
# 「Gaussian_unit_part2」数据集卡片
[更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
JST-SUPERB



