Pile-YoutubeSubtitles
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Pile-YoutubeSubtitles
下载链接
链接失效反馈官方服务:
资源简介:
Pile-YoutubeSubtitles数据集是一个包含来自YouTube视频的大规模字幕文本数据集。字幕是视频中的文字翻译或解说,通常用于辅助听障人士理解视频内容或提供多语言字幕的选项。 这个数据集收集了来自各种主题和领域的YouTube视频的字幕文本。
提供机构:
OpenDataLab
创建时间:
2023-07-19
搜集汇总
数据集介绍

背景与挑战
背景概述
Pile-YoutubeSubtitles是一个大规模数据集,收集了来自YouTube视频的字幕文本,涵盖多种语言和主题,旨在为自然语言处理任务提供丰富的训练和研究资源。该数据集由EleutherAI发布,数据量达3.7GB,适用于文本生成、机器翻译等应用。
以上内容由遇见数据集搜集并总结生成



