five

Pile-YoutubeSubtitles

收藏
魔搭社区2025-06-30 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Pile-YoutubeSubtitles
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: Pile-YoutubeSubtitles license: - MIT taskTypes: - Natural Language Generation - Language Modelling mediaTypes: - Text labelTypes: - English Corpus tags: [] publisher: - EleutherAI publishDate: '2023-07-18' publishUrl: https://pile.eleuther.ai/ paperUrl: '' --- # 数据介绍 ## 简介 Pile-YoutubeSubtitles数据集是一个包含来自YouTube视频的大规模字幕文本数据集。字幕是视频中的文字翻译或解说,通常用于辅助听障人士理解视频内容或提供多语言字幕的选项。 这个数据集收集了来自各种主题和领域的YouTube视频的字幕文本。涵盖了许多不同的语言和话题,包括教育、娱乐、新闻、科技等。 Pile-YoutubeSubtitles数据集的目的是提供一个丰富的、多样化的文本资源,用于训练和研究自然语言处理(NLP)模型。这些数据可以用于各种NLP任务,如文本生成、机器翻译、语义理解等。 ## 数据内容 ### 数据说明 Pile-YoutubeSubtitles数据集涵盖了3.7G的数据。 ### 数据示例 ``` { "id": "256833281", "source_id": "", "doc_id": "177648912", "data_type": "text", "data_source": "pile", "data_url": "enwiki-c4-pile-ccnews", "content": "Idaho Public Television's Science Trek, the\nScience of Lewis and Clark, chronicles the\nscientific mission of the Corps of Discovery\nthrough videos, reading lists, games and copies\nof the intrepid explorers' journals.\nIt also offers materials educators can use\nin the classroom.\nResources to empower parents to help their students achieve are available online at PERC.SDE.Idaho.gov.\n", "remark": { "pile_set_name": "YoutubeSubtitles" }, "sub_path": "youtubesubtitles/train" } ``` ## 引文 ``` @misc{conghui2022opendatalab, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin}, journal={https://opendatalab.com/}, year={2022} } ``` ## Download dataset :modelscope-code[]{type="git"}

数据集显示名称:Pile-YoutubeSubtitles 许可证: - MIT 任务类型: - 自然语言生成 - 语言建模 媒体类型: - 文本 标签类型: - 英语语料库 标签:[] 发布方: - EleutherAI 发布日期:'2023-07-18' 发布链接:https://pile.eleuther.ai/ 论文链接:'' --- # 数据集介绍 ## 数据集简介 Pile-YoutubeSubtitles数据集是一类收录自YouTube平台视频的大规模字幕文本数据集。字幕作为视频的文字译稿或解说文本,通常用于辅助听障人士理解视频内容,或提供多语言字幕支持。 本数据集采集了覆盖多元主题与领域的YouTube视频字幕文本,涵盖诸多不同语言与话题范畴,包括教育、娱乐、新闻、科技等多个领域。 Pile-YoutubeSubtitles数据集旨在打造一份丰富多元的文本资源,用于自然语言处理(Natural Language Processing,NLP)模型的训练与研究工作。该数据集可适配多种自然语言处理任务,例如文本生成、机器翻译、语义理解等。 ## 数据集内容 ### 数据规模说明 Pile-YoutubeSubtitles数据集总数据量达3.7吉字节(GB)。 ### 数据示例 json { "id": "256833281", "source_id": "", "doc_id": "177648912", "data_type": "text", "data_source": "pile", "data_url": "enwiki-c4-pile-ccnews", "content": "Idaho Public Television's Science Trek, the Science of Lewis and Clark, chronicles the scientific mission of the Corps of Discovery through videos, reading lists, games and copies of the intrepid explorers' journals. It also offers materials educators can use in the classroom. Resources to empower parents to help their students achieve are available online at PERC.SDE.Idaho.gov. ", "remark": { "pile_set_name": "YoutubeSubtitles" }, "sub_path": "youtubesubtitles/train" } ## 引用文献 bibtex @misc{conghui2022opendatalab, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin}, journal={https://opendatalab.com/}, year={2022} } ## 下载数据集 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作