five

pykeio/vtuber-chats-2023-filtered-en-8.7M

收藏
Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pykeio/vtuber-chats-2023-filtered-en-8.7M
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含872万条高质量过滤聊天消息的数据集,这些消息收集自各种英语VTuber直播。数据来自Hololive、Nijisanji、idol Corp和VShojo附属的直播主,以及一些独立直播主。消息内容包含特殊标记,用于指代直播主和可能的合作者。大约97%的英语直播主名称被成功匹配并替换为上述特殊标记。数据集遵循CC BY-NC-SA 4.0许可证,要求署名、非商业使用,并且任何修改或副本必须在相同许可证下分发。

This is a dataset containing 8.72 million high-quality filtered chat messages collected from various English VTuber live streams. The data is sourced from streamers affiliated with Hololive, Nijisanji, idol Corp, and VShojo, as well as some independent streamers. The chat messages contain special tokens used to refer to streamers and potential collaborators. Approximately 97% of English streamer names were successfully matched and replaced with the aforementioned special tokens. This dataset is licensed under CC BY-NC-SA 4.0, which requires attribution, non-commercial use, and that any modified versions or copies be distributed under the same license.
提供机构:
pykeio
原始信息汇总

VTuber Chats 2023 (Filtered, EN)

概述

  • 数据集名称: pyke VTuber Chats 2023 (Filtered, EN)
  • 数据集大小: 8.72M条消息
  • 语言: 英语
  • 标签: 直播、流媒体、聊天、消息、虚拟YouTuber
  • 任务类别: 文本生成、对话
  • 许可证: CC BY-NC-SA 4.0

数据内容

  • 数据集包含从多个英语虚拟YouTuber直播中收集的高质量过滤聊天消息。
  • 涵盖的直播平台包括Hololive, Nijisanji, idol Corp, VShojo-affiliated livers以及一些独立直播者。
  • 消息内容中包含特殊标记,用于标识直播者和其他可能的合作直播者。

特殊标记说明

  • <|liver|>: 指直播中的主播。
  • <|known-collaborator:{liverId}:{b64text}|>: 指确认参与直播的另一主播及其原始标记的base64编码。
  • <|maybe-collaborator:{liverId}:{b64text}|>: 指可能参与直播的另一主播及其原始标记的base64编码。

许可证详情

  • 使用本数据集需遵守CC BY-NC-SA 4.0许可证,包括必须给出归属、不得用于商业目的,且任何修改或复制的数据集也必须遵循相同许可证。
  • 如需商业用途或其他类型的许可证,请联系contact@pyke.io。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作