five

OmniAICreator/Japanese-Roleplay

收藏
Hugging Face2024-05-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/OmniAICreator/Japanese-Roleplay
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从日本角色扮演论坛(通常称为なりきりチャット)收集的对话语料库,每个记录对应一个单独的线程。数据集经过了多种过滤和清理处理,包括删除响应锚点、删除短于10个字符的帖子、删除唯一发帖者类型的记录等。需要注意的是,并非所有对话都是纯粹的角色扮演,有些记录可能包括关于设置的初步讨论或从其他线程继续的对话。

这是一个从日本角色扮演论坛(通常称为なりきりチャット)收集的对话语料库,每个记录对应一个单独的线程。数据集经过了多种过滤和清理处理,包括删除响应锚点、删除短于10个字符的帖子、删除唯一发帖者类型的记录等。需要注意的是,并非所有对话都是纯粹的角色扮演,有些记录可能包括关于设置的初步讨论或从其他线程继续的对话。
提供机构:
OmniAICreator
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 日语
  • 标签: 角色扮演, 不适合所有观众
  • 规模类别: 数据量小于1000

数据集描述

  • 名称: Japanese-Roleplay
  • 来源: 日本角色扮演论坛(通常称为“なりきりチャット(narikiri chat)”)
  • 结构: 每个记录对应一个单独的线程

数据处理

  • 对所有记录中的post_content执行以下操作:
    • 移除响应锚点
    • 删除长度为10个字符或以下的帖子
    • 如果记录中poster的唯一类型数量为1或以下,则删除整个记录
    • 如果同一poster连续出现,将其post_content合并并转换为新数据
    • 如果经过上述处理后的post_content唯一数量为10或以下,则删除整个记录
    • 如果first_poster不在后续帖子中的poster列表中,则删除整个记录

数据特点

  • 并非所有对话都是纯粹的角色扮演,部分记录包含关于设置的初始讨论或从其他线程延续的内容
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作