srija616/IV-R-Temp

Name: srija616/IV-R-Temp
Creator: srija616
Published: 2024-06-11 09:20:47
License: 暂无描述

Hugging Face2024-06-11 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/srija616/IV-R-Temp

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: lang dtype: string - name: samples dtype: int64 - name: verbatim dtype: string - name: normalized dtype: string - name: speaker_id dtype: string - name: scenario dtype: string - name: task_name dtype: string - name: gender dtype: string - name: age_group dtype: string - name: job_type dtype: string - name: qualification dtype: string - name: area dtype: string - name: district dtype: string - name: state dtype: string - name: occupation dtype: string - name: audio dtype: audio: sampling_rate: 48000 - name: utterance_pitch_mean dtype: float64 - name: utterance_pitch_std dtype: float64 - name: snr dtype: float64 - name: c50 dtype: float64 - name: speaking_rate dtype: float64 - name: cer dtype: string - name: duration dtype: float64 splits: - name: train num_bytes: 995277556.0 num_examples: 569 - name: validation num_bytes: 995277556.0 num_examples: 569 - name: test num_bytes: 995277556.0 num_examples: 569 download_size: 2804658516 dataset_size: 2985832668.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

提供机构：

srija616

原始信息汇总

数据集概述

数据集特征

text: 文本数据，类型为字符串。
lang: 语言标识，类型为字符串。
samples: 样本数量，类型为整数。
verbatim: 逐字文本，类型为字符串。
normalized: 归一化文本，类型为字符串。
speaker_id: 说话者ID，类型为字符串。
scenario: 场景描述，类型为字符串。
task_name: 任务名称，类型为字符串。
gender: 性别，类型为字符串。
age_group: 年龄组，类型为字符串。
job_type: 工作类型，类型为字符串。
qualification: 资格认证，类型为字符串。
area: 地区，类型为字符串。
district: 行政区，类型为字符串。
state: 州/省，类型为字符串。
occupation: 职业，类型为字符串。
audio: 音频数据，采样率为48000。
utterance_pitch_mean: 语音平均音高，类型为浮点数。
utterance_pitch_std: 语音音高标准差，类型为浮点数。
snr: 信噪比，类型为浮点数。
c50: C50参数，类型为浮点数。
speaking_rate: 说话速率，类型为浮点数。
cer: 字符错误率，类型为字符串。
duration: 持续时间，类型为浮点数。

数据集分割

train: 训练集，包含569个样本，大小为995277556字节。
validation: 验证集，包含569个样本，大小为995277556字节。
test: 测试集，包含569个样本，大小为995277556字节。

数据集大小

download_size: 下载大小为2804658516字节。
dataset_size: 数据集总大小为2985832668字节。

配置

config_name: default
- data_files:
  - train: 路径为data/train-*。
  - validation: 路径为data/validation-*。
  - test: 路径为data/test-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集