d0rj/audiocaps-ru
收藏Hugging Face2023-06-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0rj/audiocaps-ru
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是[d0rj/audiocaps](https://huggingface.co/datasets/d0rj/audiocaps)的俄语翻译版本,主要用于文本到语音的任务。数据集包含音频ID、YouTube视频ID、开始时间和字幕等特征,分为训练集、验证集和测试集。数据集大小为7383310字节,下载大小为3704490字节,包含49838个训练样本、2475个验证样本和4875个测试样本。数据集使用MIT许可证,语言为俄语,属于单语言数据集,标签包括YouTube和字幕。
该数据集是[d0rj/audiocaps](https://huggingface.co/datasets/d0rj/audiocaps)的俄语翻译版本,主要用于文本到语音的任务。数据集包含音频ID、YouTube视频ID、开始时间和字幕等特征,分为训练集、验证集和测试集。数据集大小为7383310字节,下载大小为3704490字节,包含49838个训练样本、2475个验证样本和4875个测试样本。数据集使用MIT许可证,语言为俄语,属于单语言数据集,标签包括YouTube和字幕。
提供机构:
d0rj
原始信息汇总
数据集概述
数据集信息
特征
- audiocap_id: 数据类型为
int64 - youtube_id: 数据类型为
string - start_time: 数据类型为
int64 - caption: 数据类型为
string
数据划分
- train:
- 字节数: 6362503.0
- 样本数: 49838
- validation:
- 字节数: 306375.0
- 样本数: 2475
- test:
- 字节数: 714432.0
- 样本数: 4875
数据大小
- 下载大小: 3704490
- 数据集大小: 7383310.0
许可
- MIT
任务类别
- 文本到语音
语言
- 俄语
多语言性
- 单语种
标签
- YouTube
- 字幕
数据集名称
- AudioCaps (ru)
数据集规模
- 10K<n<100K
来源数据集
- d0rj/audiocaps
语言创建者
- 翻译



