pykeio/oshichats-v2

Name: pykeio/oshichats-v2
Creator: pykeio
Published: 2024-05-06 22:43:26
License: 暂无描述

Hugging Face2024-05-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pykeio/oshichats-v2

下载链接

链接失效反馈

官方服务：

资源简介：

OshiChats v2是一个包含5600万条高质量英文聊天消息的数据集，这些消息是从2023年11月18日之前的不同VTuber直播中收集的。数据集适用于文本分类、文本生成和标记分类任务。数据字段包括直播主持人的名称、标志、直播信息、消息作者、消息内容、是否为捐赠、神经质量评分、语言检测评分、内部分析字段以及消息发送时间偏移。消息标签用于在后续任务中替换某些消息内容。

OshiChats v2 is a dataset containing 56 million high-quality English chat messages collected from various VTuber live streams prior to November 18, 2023. This dataset is applicable to tasks including text classification, text generation, and token classification. The data fields include the live stream host's name, logo, live stream details, message author, message content, donation status, neural quality score, language detection score, internal analysis fields, and message send time offset. Message tags are used to replace specific message content in downstream tasks.

提供机构：

pykeio

原始信息汇总

OshiChats v2 数据集概述

基本信息

许可证: CC BY 4.0
任务类别: 文本分类、文本生成、标记分类
标注创建者: 众包
语言创建者: 发现
语言: 英语
标签: 直播、流、聊天、消息、VTuber、Twitch、YouTube
数据集名称: OshiChats v2
数据集大小: 10M<n<100M

数据集描述

OshiChats v2 是一个包含 5600 万条高质量英语聊天消息的数据集，这些消息收集自 2023 年 11 月 18 日之前的各种 VTuber 直播。

使用示例

python from datasets import load_dataset

chats_dataset = load_dataset(pykeio/oshichats-v2, split=train) print(chats_dataset[0])

样本数据

json { "liver": "Millie Parfait", "flags": 16782594, "stream": { "id": "yt=aX-D4GDi14s", "topic": "asmr" }, "author": "Brandermau", "message": "Thank you for the blessed week <|liver:text=TWlsbGll|>!", "donation": true, "score": 21.930078506469727, "languages": [0.7040359377861023,0.1367727518081665,0.07201824337244034,0.05604061856865883,0.023007752373814583,0.008124674670398235,0.0,0.0,0.0,0.0], "analysis": [0.01581309176981449,0.0001037662077578716,0.0016704736044630408,0.00014343550719786435,0.000602249929215759,0.00019911097479052842], "delta_time": 365.5880126953125 }

数据字段

liver: 直播主持人的名字。
flags: 直播主持人的标志。第 24 位表示主持人使用 she/her 代词，否则使用 he/him 代词。最后四位表示主持人的组织归属。
stream: 直播信息，包含 id 和 topic 两个字段。
author: 聊天消息作者的显示名称。
message: 聊天消息内容。某些内容被替换为标签，用于下游任务。
donation: 是否为超级聊天或捐赠。
score: 神经质量评分，与主持人进行建设性对话的消息得分较高。
languages: 语言检测得分，依次为英语、日语、印尼语、中文、韩语、他加禄语、西班牙语、俄语、法语、德语。
analysis: 内部使用，不建议使用。
delta_time: 消息发送时间，表示为自直播开始以来的偏移量，单位为秒。

消息标签

<|liver:text={text}|>: 通过名字或昵称引用主持人，text 是原始文本的 base64 编码。
<|fans:text={text}|>: 引用主持人的粉丝群体，text 是原始文本的 base64 编码。
<|collaborator:liver={other}:text={text}:affiliation={aff}|>: 通过名字或昵称引用另一个主持人，other 是引用的主持人的全名，text 是原始文本的 base64 编码，aff 是另一个主持人的归属。
<|collaborator-fans:text={text}|>: 引用直播中某个合作者的粉丝群体，text 是原始文本的 base64 编码。
<|maybe-collaborator:liver={other}:text={text}:affiliation={aff}|>: 通过名字或昵称引用另一个主持人，other 是引用的主持人的全名，text 是原始文本的 base64 编码，aff 是另一个主持人的归属。

许可证

该数据集基于 CC BY 4.0 许可证发布，使用该数据集的任何衍生作品（包括使用其数据训练的模型）必须注明 pyke.io 的归属。

搜集汇总

数据集介绍

构建方式

OshiChats v2数据集的构建采用了从VTuber直播中收集英语聊天信息的方式，这些直播信息来源于2023年11月18日之前的多个VTuber直播流。数据集通过众包的形式收集了5600万条高质量的英语聊天记录，每一条记录都包含了聊天者、聊天内容、时间戳等信息，旨在为文本分类、文本生成和标记分类等任务提供丰富的训练数据。

特点

OshiChats v2数据集的特点在于其庞大的规模和详尽的字段信息。它不仅包含了聊天者的信息和聊天内容，还包含了聊天的时间戳、聊天是否为超级聊天或捐赠信息、直播流的话题和ID等。此外，数据集还提供了语言检测分数和内部分析信息，有助于进行更深入的数据挖掘和模型训练。

使用方法

使用OshiChats v2数据集时，用户可以通过HuggingFace的datasets库加载训练、验证和测试数据。数据集以JSON格式存储，可以通过Python代码直接加载和访问。加载后，用户可以遍历数据集中的记录，提取所需的字段，如聊天内容、聊天者信息等，以进行模型训练或数据分析。

背景与挑战

背景概述

OshiChats v2数据集，创建于2023年11月18日之前，是由pyke.io团队收集的，包含5600万条高质量的英语聊天信息。该数据集主要来源于各种VTuber直播流，是自然语言处理领域中的重要资源，尤其对于直播聊天内容的分析、分类和生成任务具有显著的研究价值。其主要研究人员或机构为pyke.io，核心研究问题聚焦于如何更好地理解和处理直播环境下的聊天互动。该数据集的构建对直播聊天分析领域产生了重要影响，为相关研究提供了丰富的数据基础。

当前挑战

在研究领域问题上，OshiChats v2数据集面临的挑战包括如何准确地进行聊天内容分类、情感分析和话题识别。构建过程中的挑战则涉及数据收集的规模性、多样性和准确性，以及如何处理直播中特有的语言变体和标签系统。此外，数据集的标注质量和处理隐私问题也是需要关注的重要方面。

常用场景

经典使用场景

在自然语言处理领域中，OshiChats v2数据集的经典使用场景主要在于对话生成与分类任务。其丰富的聊天记录为构建自动回复系统、情感分析以及话题分类等模型提供了坚实基础。

衍生相关工作

基于OshiChats v2数据集，学术界和产业界已衍生出一系列相关工作，包括构建VTuber互动模型、分析直播观众行为模式、以及开发针对直播内容的智能推荐系统等，进一步推动了直播领域的技术进步与应用创新。

数据集最近研究