OmniAICreator/Japanese-Roleplay
收藏Hugging Face2024-05-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/OmniAICreator/Japanese-Roleplay
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从日本角色扮演论坛(通常称为なりきりチャット)收集的对话语料库,每个记录对应一个单独的线程。数据集经过了多种过滤和清理处理,包括删除响应锚点、删除短于10个字符的帖子、删除唯一发帖者类型的记录等。需要注意的是,并非所有对话都是纯粹的角色扮演,有些记录可能包括关于设置的初步讨论或从其他线程继续的对话。
这是一个从日本角色扮演论坛(通常称为なりきりチャット)收集的对话语料库,每个记录对应一个单独的线程。数据集经过了多种过滤和清理处理,包括删除响应锚点、删除短于10个字符的帖子、删除唯一发帖者类型的记录等。需要注意的是,并非所有对话都是纯粹的角色扮演,有些记录可能包括关于设置的初步讨论或从其他线程继续的对话。
提供机构:
OmniAICreator
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 日语
- 标签: 角色扮演, 不适合所有观众
- 规模类别: 数据量小于1000
数据集描述
- 名称: Japanese-Roleplay
- 来源: 日本角色扮演论坛(通常称为“なりきりチャット(narikiri chat)”)
- 结构: 每个记录对应一个单独的线程
数据处理
- 对所有记录中的
post_content执行以下操作:- 移除响应锚点
- 删除长度为10个字符或以下的帖子
- 如果记录中
poster的唯一类型数量为1或以下,则删除整个记录 - 如果同一
poster连续出现,将其post_content合并并转换为新数据 - 如果经过上述处理后的
post_content唯一数量为10或以下,则删除整个记录 - 如果
first_poster不在后续帖子中的poster列表中,则删除整个记录
数据特点
- 并非所有对话都是纯粹的角色扮演,部分记录包含关于设置的初始讨论或从其他线程延续的内容



