five

kyratron/Project-Kyra-LiveStreams-RAW

收藏
Hugging Face2024-04-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kyratron/Project-Kyra-LiveStreams-RAW
下载链接
链接失效反馈
官方服务:
资源简介:
数据集Project Kyra LiveStreams RAW包含从17个不同虚拟主播(Vtuber)的4666个直播流中提取的文本数据。这些数据通过YouTube自动字幕转录,并进行了初步清理,包括移除少于12个字符的文本、去除大部分重复内容以及合并多行文本。数据集适用于文本生成任务,语言为英语,标签为not-for-all-audiences,表示内容可能不适合所有观众。数据集的规模在1M到10M之间。

数据集Project Kyra LiveStreams RAW包含从17个不同虚拟主播(Vtuber)的4666个直播流中提取的文本数据。这些数据通过YouTube自动字幕转录,并进行了初步清理,包括移除少于12个字符的文本、去除大部分重复内容以及合并多行文本。数据集适用于文本生成任务,语言为英语,标签为not-for-all-audiences,表示内容可能不适合所有观众。数据集的规模在1M到10M之间。
提供机构:
kyratron
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 英语
  • 数据集名称: Project Kyra LiveStreams RAW
  • 数据集大小: 1M<n<10M
  • 标签: 不适合所有观众

数据来源

  • 采集日期: 2024年4月17日
  • 来源: 来自17个不同vTuber的4666个直播流
  • 转录方式: YouTube自动字幕

数据处理

  • 清洗步骤:
    • 移除所有少于12个字符的文本
    • 移除大部分重复内容
    • 合并多行文本
  • 后续处理建议: 可能需要进一步处理以供使用

采集频道

  • vTuber名称采集的频道ID:
    • Tenma: UC3K7pmiHsNSx1y0tdx2bbCw
    • Kirsche: UC4uVQv3D4-DtUQOvG1Fo6Jg
    • Chibidoki: UC6eWvFoYe5nOia-hyPxFPZw
    • Akuma Nihmune: UC79Ekr3umIkWmgZ-an01LfQ
    • Anny: UC7pbO3zbqaa1BUboT7hAMnw
    • Fallenshadow (Shondo): UCAnNefAhrysfkOQ1BYDS4aA
    • Projekt Melody: UCBDQTYsCOjLZ-Sc7Unbt7rg
    • Shylily: UCbJ4ic0gY5tpvTLS5XMUukg
    • Lucy Pyre: UCbLtPlo93xmu3XcMNICQLsw
    • Bao The Whale: UCIL-kd47ymwmN34fwp2muzQ
    • Filian: UCIVrfr8A8oj7zHfWZ3XS04A
    • Pipkin Pippa: UCJ46YTYBQVXsfsp8-HryoUA
    • Yuzu: UCJmdHtUzrPexVTBYaNxYJtA
    • Marimari_en: UCKwYS9jnDCKUyfb4iXGOm5g
    • Camila: UCkx1nOrzDiAa1OiJHdZrB4Q
    • Sinder: UCtzaZWV1YvIP0kmzhVIyjVw
    • Henya The Genius: UCVosJKRZJAWOX5xnlEjILOA
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集名为'Project-Kyra-LiveStreams-RAW',主要用于文本生成任务,包含英文文本数据,格式为parquet,大小在1M到10M之间。数据集被标记为'Not-For-All-Audiences',可能包含敏感或有害信息。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作