Zarakun/youtube_ua_noisy_subtitles_test
收藏Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zarakun/youtube_ua_noisy_subtitles_test
下载链接
链接失效反馈官方服务:
资源简介:
MangoSpeech数据集是一个用于自动语音识别的数据集,包含三个子集:opodcast、rozdympodcast和test。这些子集分别来自乌克兰的YouTube频道О! ПОДКАСТ和Роздум | Подкаст,以及一个小的样本集。所有子集都处于测试分割中。
MangoSpeech数据集是一个用于自动语音识别的数据集,包含三个子集:opodcast、rozdympodcast和test。这些子集分别来自乌克兰的YouTube频道О! ПОДКАСТ和Роздум | Подкаст,以及一个小的样本集。所有子集都处于测试分割中。
提供机构:
Zarakun
原始信息汇总
数据集概述
任务类别
- 自动语音识别(automatic-speech-recognition)
数据集名称
- MangoSpeech
配置信息
- opodcast: 数据文件路径为 "data/opodcast.parquet"
- rozdympodcast: 数据文件路径为 "data/rozdympodcast.parquet"
- test: 数据文件路径为 "data/test.parquet"
子集信息
- opodcast: 来自频道 "О! ПОДКАСТ"
- rozdympodcast: 来自频道 "Роздум | Подкаст"
- test: 是一个小样本子集
数据加载示例
python data_files = {"train": "data/<your_subset>.parquet"} data = load_dataset("Zarakun/youtube_ua_subtitles_test", data_files=data_files)
数据结构
- 特征: [audio, rate, duration, sentence]
- 行数: <some_number>



