five

PleIAs/YouTube-Commons

收藏
Hugging Face2024-06-26 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/YouTube-Commons
下载链接
链接失效反馈
官方服务:
资源简介:
YouTube-Commons数据集是一个包含2,063,066个在YouTube上以CC-By许可证共享的视频的音频转录文本的集合。该数据集包含22,709,724个原始和自动翻译的转录文本,来自3,156,703个视频(721,136个独立频道),总计近450亿字。数据集提供了所有必要的来源信息,包括标题、链接、频道名称和上传日期。数据集是多语言的,主要以英语为主(71%),并提供了几乎所有视频的英语、法语、西班牙语、德语、俄语、意大利语和荷兰语的自动翻译。该数据集旨在扩展AI、计算社会科学和数字人文学科研究中对话数据的可用性。
提供机构:
PleIAs
原始信息汇总

数据集概述

名称: YouTube-Commons

内容: 该数据集包含2,063,066个YouTube视频的音频转录文本。

许可证: CC-By 许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作