five

bkai-foundation-models/vietnamese-roleplay-realm

收藏
Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/vietnamese-roleplay-realm
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由GPT生成的越南语角色数据集,旨在提高开源语言模型在角色扮演方面的能力。数据集包含446个由GPT-3.5生成的角色,其中400个为普通角色,46个为越南语角色。每个角色有20个由ChatGPT生成的话题,每个话题对应一段对话。数据集的构建过程分为四个步骤:角色生成、话题生成、对话生成以及检查和精炼。

这是一个由GPT生成的越南语角色数据集,旨在提高开源语言模型在角色扮演方面的能力。数据集包含446个由GPT-3.5生成的角色,其中400个为普通角色,46个为越南语角色。每个角色有20个由ChatGPT生成的话题,每个话题对应一段对话。数据集的构建过程分为四个步骤:角色生成、话题生成、对话生成以及检查和精炼。
提供机构:
bkai-foundation-models
原始信息汇总

越南角色扮演领域数据集

数据集概述

  • 数据集名称: Vietnamese Role-play Realm Dataset
  • 数据集描述: 该数据集包含由GPT-3.5生成的446个越南角色,旨在提高开源语言模型的角色扮演能力。每个角色有20个由ChatGPT生成的话题,每个话题对应一段对话。
  • 数据集组成: 446个角色中,400个为普通角色,46个为越南角色。

数据集特征

  • 特征列表:
    • name: 角色名称,数据类型为字符串。
    • context: 角色背景,数据类型为字符串。
    • greeting: 角色问候语,数据类型为字符串。
    • example_dialogue: 示例对话,包含以下子字段:
      • content: 对话内容,数据类型为字符串。
      • role: 角色,数据类型为字符串。
    • topics: 话题序列,数据类型为字符串。
    • dialogues: 对话列表,包含以下子字段:
      • chat: 对话列表,包含以下子字段:
        • content: 对话内容,数据类型为字符串。
        • role: 角色,数据类型为字符串。
      • model_name: 模型名称,数据类型为字符串。
      • topic: 话题,数据类型为字符串。

数据集分割

  • 训练集: 包含446个示例。

任务类别

  • 文本生成

语言

  • 越南语

标签

  • gpt-4
  • fictional
  • role-play
  • roleplay
  • gpt-3.5
  • art

数据集构建过程

  1. 角色生成: 基于提示和角色种子列表,使用GPT-3.5生成一组虚构角色,输出字段包括namecontextgreetingexample_dialogue
  2. 话题生成: 根据角色描述生成对话话题,每个角色生成20个话题,输出字段为topics
  3. 对话生成: 基于角色描述和话题生成对话,输出字段为dialogues
  4. 检查和精炼: 由于数据集可能包含越南语错误,需要进行审查和修正以确保准确性和精炼。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作