Bhasaanuvaad/IndicVoices_ST

Name: Bhasaanuvaad/IndicVoices_ST
Creator: Bhasaanuvaad
Published: 2024-12-30 09:43:17
License: 暂无描述

Hugging Face2024-12-30 更新2025-11-01 收录

下载链接：

https://hf-mirror.com/datasets/Bhasaanuvaad/IndicVoices_ST

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: Indic-En/asm features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 3830374664.215 num_examples: 118555 download_size: 3175164468 dataset_size: 3830374664.215 - config_name: Indic-En/ben features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 2835796880.7 num_examples: 116130 download_size: 2786917192 dataset_size: 2835796880.7 - config_name: Indic-En/guj features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 166638189.06 num_examples: 6780 download_size: 163730876 dataset_size: 166638189.06 - config_name: Indic-En/hin features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 1806202760.686 num_examples: 54562 download_size: 1890398578 dataset_size: 1806202760.686 - config_name: Indic-En/kan features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 1797511869.634 num_examples: 95106 download_size: 1670766615 dataset_size: 1797511869.634 - config_name: Indic-En/mal features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 2906917955.408 num_examples: 156276 download_size: 2675760437 dataset_size: 2906917955.408 - config_name: Indic-En/mar features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 4478154316.186 num_examples: 161369 download_size: 4451267547 dataset_size: 4478154316.186 - config_name: Indic-En/ory features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 1655215767.824 num_examples: 77816 download_size: 1594161285 dataset_size: 1655215767.824 - config_name: Indic-En/pun features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 1994329096.444 num_examples: 71933 download_size: 1884238977 dataset_size: 1994329096.444 - config_name: Indic-En/tam features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 3711686841.394 num_examples: 235647 download_size: 3586258352 dataset_size: 3711686841.394 - config_name: Indic-En/tel features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 2810991271.53 num_examples: 160355 download_size: 3029713349 dataset_size: 2810991271.53 - config_name: Indic-En/urd features: - name: chunked_audio_filepath dtype: audio - name: text dtype: string - name: pred_text dtype: string - name: audio_filepath dtype: string - name: start_time dtype: float64 - name: duration dtype: float64 - name: alignment_score dtype: float64 - name: en_text dtype: string - name: en_mining_score dtype: float64 splits: - name: train num_bytes: 3648275162.028 num_examples: 115034 download_size: 3659815614 dataset_size: 3648275162.028 configs: - config_name: Indic-En/asm data_files: - split: train path: Indic-En/asm/train-* - config_name: Indic-En/ben data_files: - split: train path: Indic-En/ben/train-* - config_name: Indic-En/guj data_files: - split: train path: Indic-En/guj/train-* - config_name: Indic-En/hin data_files: - split: train path: Indic-En/hin/train-* - config_name: Indic-En/kan data_files: - split: train path: Indic-En/kan/train-* - config_name: Indic-En/mal data_files: - split: train path: Indic-En/mal/train-* - config_name: Indic-En/mar data_files: - split: train path: Indic-En/mar/train-* - config_name: Indic-En/ory data_files: - split: train path: Indic-En/ory/train-* - config_name: Indic-En/pun data_files: - split: train path: Indic-En/pun/train-* - config_name: Indic-En/tam data_files: - split: train path: Indic-En/tam/train-* - config_name: Indic-En/tel data_files: - split: train path: Indic-En/tel/train-* - config_name: Indic-En/urd data_files: - split: train path: Indic-En/urd/train-* ---

数据集信息： - 配置名称：Indic-En/asm 数据特征： - 分块音频文件路径（chunked_audio_filepath）：数据类型为音频（audio） - 转录文本（text）：数据类型为字符串（string） - 预测转录文本（pred_text）：数据类型为字符串（string） - 原始音频文件路径（audio_filepath）：数据类型为字符串（string） - 分块起始时间（start_time）：数据类型为64位浮点型（float64） - 分块时长（duration）：数据类型为64位浮点型（float64） - 文本-音频对齐评分（alignment_score）：数据类型为64位浮点型（float64） - 对应英语文本（en_text）：数据类型为字符串（string） - 英语文本挖掘评分（en_mining_score）：数据类型为64位浮点型（float64）数据集拆分： - 拆分名称：train（训练集）字节占用量：3830374664.215 样本总量：118555 下载体积：3175164468 数据集总体积：3830374664.215 - 配置名称：Indic-En/ben 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：2835796880.7 样本总量：116130 下载体积：2786917192 数据集总体积：2835796880.7 - 配置名称：Indic-En/guj 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：166638189.06 样本总量：6780 下载体积：163730876 数据集总体积：166638189.06 - 配置名称：Indic-En/hin 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：1806202760.686 样本总量：54562 下载体积：1890398578 数据集总体积：1806202760.686 - 配置名称：Indic-En/kan 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：1797511869.634 样本总量：95106 下载体积：1670766615 数据集总体积：1797511869.634 - 配置名称：Indic-En/mal 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：2906917955.408 样本总量：156276 下载体积：2675760437 数据集总体积：2906917955.408 - 配置名称：Indic-En/mar 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：4478154316.186 样本总量：161369 下载体积：4451267547 数据集总体积：4478154316.186 - 配置名称：Indic-En/ory 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：1655215767.824 样本总量：77816 下载体积：1594161285 数据集总体积：1655215767.824 - 配置名称：Indic-En/pun 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：1994329096.444 样本总量：71933 下载体积：1884238977 数据集总体积：1994329096.444 - 配置名称：Indic-En/tam 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：3711686841.394 样本总量：235647 下载体积：3586258352 数据集总体积：3711686841.394 - 配置名称：Indic-En/tel 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：2810991271.53 样本总量：160355 下载体积：3029713349 数据集总体积：2810991271.53 - 配置名称：Indic-En/urd 数据特征： - 分块音频文件路径：数据类型为音频 - 转录文本：数据类型为字符串 - 预测转录文本：数据类型为字符串 - 原始音频文件路径：数据类型为字符串 - 分块起始时间：数据类型为64位浮点型 - 分块时长：数据类型为64位浮点型 - 文本-音频对齐评分：数据类型为64位浮点型 - 对应英语文本：数据类型为字符串 - 英语文本挖掘评分：数据类型为64位浮点型数据集拆分： - 拆分名称：train（训练集）字节占用量：3648275162.028 样本总量：115034 下载体积：3659815614 数据集总体积：3648275162.028 配置项： - 配置名称：Indic-En/asm 数据文件： - 拆分集：train（训练集）路径：Indic-En/asm/train-* - 配置名称：Indic-En/ben 数据文件： - 拆分集：train（训练集）路径：Indic-En/ben/train-* - 配置名称：Indic-En/guj 数据文件： - 拆分集：train（训练集）路径：Indic-En/guj/train-* - 配置名称：Indic-En/hin 数据文件： - 拆分集：train（训练集）路径：Indic-En/hin/train-* - 配置名称：Indic-En/kan 数据文件： - 拆分集：train（训练集）路径：Indic-En/kan/train-* - 配置名称：Indic-En/mal 数据文件： - 拆分集：train（训练集）路径：Indic-En/mal/train-* - 配置名称：Indic-En/mar 数据文件： - 拆分集：train（训练集）路径：Indic-En/mar/train-* - 配置名称：Indic-En/ory 数据文件： - 拆分集：train（训练集）路径：Indic-En/ory/train-* - 配置名称：Indic-En/pun 数据文件： - 拆分集：train（训练集）路径：Indic-En/pun/train-* - 配置名称：Indic-En/tam 数据文件： - 拆分集：train（训练集）路径：Indic-En/tam/train-* - 配置名称：Indic-En/tel 数据文件： - 拆分集：train（训练集）路径：Indic-En/tel/train-* - 配置名称：Indic-En/urd 数据文件： - 拆分集：train（训练集）路径：Indic-En/urd/train-*

提供机构：

Bhasaanuvaad

5,000+

优质数据集

54 个

任务类型

进入经典数据集