kyratron/Project-Kyra-LiveStreams-RAW
收藏Hugging Face2024-04-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kyratron/Project-Kyra-LiveStreams-RAW
下载链接
链接失效反馈官方服务:
资源简介:
数据集Project Kyra LiveStreams RAW包含从17个不同虚拟主播(Vtuber)的4666个直播流中提取的文本数据。这些数据通过YouTube自动字幕转录,并进行了初步清理,包括移除少于12个字符的文本、去除大部分重复内容以及合并多行文本。数据集适用于文本生成任务,语言为英语,标签为not-for-all-audiences,表示内容可能不适合所有观众。数据集的规模在1M到10M之间。
数据集Project Kyra LiveStreams RAW包含从17个不同虚拟主播(Vtuber)的4666个直播流中提取的文本数据。这些数据通过YouTube自动字幕转录,并进行了初步清理,包括移除少于12个字符的文本、去除大部分重复内容以及合并多行文本。数据集适用于文本生成任务,语言为英语,标签为not-for-all-audiences,表示内容可能不适合所有观众。数据集的规模在1M到10M之间。
提供机构:
kyratron
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本生成
- 语言: 英语
- 数据集名称: Project Kyra LiveStreams RAW
- 数据集大小: 1M<n<10M
- 标签: 不适合所有观众
数据来源
- 采集日期: 2024年4月17日
- 来源: 来自17个不同vTuber的4666个直播流
- 转录方式: YouTube自动字幕
数据处理
- 清洗步骤:
- 移除所有少于12个字符的文本
- 移除大部分重复内容
- 合并多行文本
- 后续处理建议: 可能需要进一步处理以供使用
采集频道
- vTuber名称 及 采集的频道ID:
- Tenma: UC3K7pmiHsNSx1y0tdx2bbCw
- Kirsche: UC4uVQv3D4-DtUQOvG1Fo6Jg
- Chibidoki: UC6eWvFoYe5nOia-hyPxFPZw
- Akuma Nihmune: UC79Ekr3umIkWmgZ-an01LfQ
- Anny: UC7pbO3zbqaa1BUboT7hAMnw
- Fallenshadow (Shondo): UCAnNefAhrysfkOQ1BYDS4aA
- Projekt Melody: UCBDQTYsCOjLZ-Sc7Unbt7rg
- Shylily: UCbJ4ic0gY5tpvTLS5XMUukg
- Lucy Pyre: UCbLtPlo93xmu3XcMNICQLsw
- Bao The Whale: UCIL-kd47ymwmN34fwp2muzQ
- Filian: UCIVrfr8A8oj7zHfWZ3XS04A
- Pipkin Pippa: UCJ46YTYBQVXsfsp8-HryoUA
- Yuzu: UCJmdHtUzrPexVTBYaNxYJtA
- Marimari_en: UCKwYS9jnDCKUyfb4iXGOm5g
- Camila: UCkx1nOrzDiAa1OiJHdZrB4Q
- Sinder: UCtzaZWV1YvIP0kmzhVIyjVw
- Henya The Genius: UCVosJKRZJAWOX5xnlEjILOA
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为'Project-Kyra-LiveStreams-RAW',主要用于文本生成任务,包含英文文本数据,格式为parquet,大小在1M到10M之间。数据集被标记为'Not-For-All-Audiences',可能包含敏感或有害信息。
以上内容由遇见数据集搜集并总结生成



