pykeio/oshichats-v2
收藏OshiChats v2 数据集概述
基本信息
- 许可证: CC BY 4.0
- 任务类别: 文本分类、文本生成、标记分类
- 标注创建者: 众包
- 语言创建者: 发现
- 语言: 英语
- 标签: 直播、流、聊天、消息、VTuber、Twitch、YouTube
- 数据集名称: OshiChats v2
- 数据集大小: 10M<n<100M
数据集描述
OshiChats v2 是一个包含 5600 万条高质量英语聊天消息的数据集,这些消息收集自 2023 年 11 月 18 日之前的各种 VTuber 直播。
使用示例
python from datasets import load_dataset
chats_dataset = load_dataset(pykeio/oshichats-v2, split=train) print(chats_dataset[0])
样本数据
json { "liver": "Millie Parfait", "flags": 16782594, "stream": { "id": "yt=aX-D4GDi14s", "topic": "asmr" }, "author": "Brandermau", "message": "Thank you for the blessed week <|liver:text=TWlsbGll|>!", "donation": true, "score": 21.930078506469727, "languages": [0.7040359377861023,0.1367727518081665,0.07201824337244034,0.05604061856865883,0.023007752373814583,0.008124674670398235,0.0,0.0,0.0,0.0], "analysis": [0.01581309176981449,0.0001037662077578716,0.0016704736044630408,0.00014343550719786435,0.000602249929215759,0.00019911097479052842], "delta_time": 365.5880126953125 }
数据字段
- liver: 直播主持人的名字。
- flags: 直播主持人的标志。第 24 位表示主持人使用 she/her 代词,否则使用 he/him 代词。最后四位表示主持人的组织归属。
- stream: 直播信息,包含
id和topic两个字段。 - author: 聊天消息作者的显示名称。
- message: 聊天消息内容。某些内容被替换为标签,用于下游任务。
- donation: 是否为超级聊天或捐赠。
- score: 神经质量评分,与主持人进行建设性对话的消息得分较高。
- languages: 语言检测得分,依次为英语、日语、印尼语、中文、韩语、他加禄语、西班牙语、俄语、法语、德语。
- analysis: 内部使用,不建议使用。
- delta_time: 消息发送时间,表示为自直播开始以来的偏移量,单位为秒。
消息标签
- <|liver:text={text}|>: 通过名字或昵称引用主持人,
text是原始文本的 base64 编码。 - <|fans:text={text}|>: 引用主持人的粉丝群体,
text是原始文本的 base64 编码。 - <|collaborator:liver={other}:text={text}:affiliation={aff}|>: 通过名字或昵称引用另一个主持人,
other是引用的主持人的全名,text是原始文本的 base64 编码,aff是另一个主持人的归属。 - <|collaborator-fans:text={text}|>: 引用直播中某个合作者的粉丝群体,
text是原始文本的 base64 编码。 - <|maybe-collaborator:liver={other}:text={text}:affiliation={aff}|>: 通过名字或昵称引用另一个主持人,
other是引用的主持人的全名,text是原始文本的 base64 编码,aff是另一个主持人的归属。
许可证
该数据集基于 CC BY 4.0 许可证发布,使用该数据集的任何衍生作品(包括使用其数据训练的模型)必须注明 pyke.io 的归属。




