five

Zarakun/youtube_ua_noisy_subtitles_test

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zarakun/youtube_ua_noisy_subtitles_test
下载链接
链接失效反馈
官方服务:
资源简介:
MangoSpeech数据集是一个用于自动语音识别的数据集,包含三个子集:opodcast、rozdympodcast和test。这些子集分别来自乌克兰的YouTube频道О! ПОДКАСТ和Роздум | Подкаст,以及一个小的样本集。所有子集都处于测试分割中。

MangoSpeech数据集是一个用于自动语音识别的数据集,包含三个子集:opodcast、rozdympodcast和test。这些子集分别来自乌克兰的YouTube频道О! ПОДКАСТ和Роздум | Подкаст,以及一个小的样本集。所有子集都处于测试分割中。
提供机构:
Zarakun
原始信息汇总

数据集概述

任务类别

  • 自动语音识别(automatic-speech-recognition)

数据集名称

  • MangoSpeech

配置信息

  • opodcast: 数据文件路径为 "data/opodcast.parquet"
  • rozdympodcast: 数据文件路径为 "data/rozdympodcast.parquet"
  • test: 数据文件路径为 "data/test.parquet"

子集信息

  • opodcast: 来自频道 "О! ПОДКАСТ"
  • rozdympodcast: 来自频道 "Роздум | Подкаст"
  • test: 是一个小样本子集

数据加载示例

python data_files = {"train": "data/<your_subset>.parquet"} data = load_dataset("Zarakun/youtube_ua_subtitles_test", data_files=data_files)

数据结构

  • 特征: [audio, rate, duration, sentence]
  • 行数: <some_number>
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作