MatrixSpeechAI/All_Hindi_ASR_stage_2

Name: MatrixSpeechAI/All_Hindi_ASR_stage_2
Creator: MatrixSpeechAI
Published: 2024-10-09 09:34:28
License: 暂无描述

Hugging Face2024-10-09 更新2025-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MatrixSpeechAI/All_Hindi_ASR_stage_2

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: text dtype: string - name: gender dtype: string - name: speaker_id dtype: int64 - name: utterance_pitch_mean dtype: float32 - name: utterance_pitch_std dtype: float32 - name: snr dtype: float64 - name: c50 dtype: float64 - name: speaking_rate dtype: string - name: phonemes dtype: string - name: stoi dtype: float64 - name: si-sdr dtype: float64 - name: pesq dtype: float64 - name: pitch dtype: string - name: noise dtype: string - name: reverberation dtype: string - name: speech_monotony dtype: string - name: sdr_noise dtype: string - name: pesq_speech_quality dtype: string splits: - name: train num_bytes: 27581213.311699525 num_examples: 41691 download_size: 10542473 dataset_size: 27581213.311699525 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征项： - 名称：id，数据类型：int64（64位整数） - 名称：text，数据类型：string（字符串） - 名称：gender，数据类型：string（字符串） - 名称：speaker_id，数据类型：int64（64位整数） - 名称：utterance_pitch_mean，数据类型：float32（32位浮点型） - 名称：utterance_pitch_std，数据类型：float32（32位浮点型） - 名称：snr，数据类型：float64（64位浮点型），即信噪比 (Signal-to-Noise Ratio) - 名称：c50，数据类型：float64（64位浮点型），即C50语音清晰度指数 - 名称：speaking_rate，数据类型：string（字符串） - 名称：phonemes，数据类型：string（字符串） - 名称：stoi，数据类型：float64（64位浮点型），即短时客观可懂度 (Short-Time Objective Intelligibility) - 名称：si-sdr，数据类型：float64（64位浮点型），即尺度不变源失真比 (Scale-Invariant Source-to-Distortion Ratio) - 名称：pesq，数据类型：float64（64位浮点型），即感知语音质量评估值 (Perceptual Evaluation of Speech Quality) - 名称：pitch，数据类型：string（字符串） - 名称：noise，数据类型：string（字符串） - 名称：reverberation，数据类型：string（字符串） - 名称：speech_monotony，数据类型：string（字符串） - 名称：sdr_noise，数据类型：string（字符串） - 名称：pesq_speech_quality，数据类型：string（字符串）数据划分： - 名称：训练集 (train)，字节数：27581213.311699525，样本数量：41691 下载字节数：10542473 数据集总字节数：27581213.311699525 配置项： - 配置名称：默认配置 (default)，数据文件： - 划分集：训练集 (train)，文件路径：data/train-*

提供机构：

MatrixSpeechAI

5,000+

优质数据集

54 个

任务类型

进入经典数据集