bkai-foundation-models/vietnamese-roleplay-realm
收藏Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/vietnamese-roleplay-realm
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由GPT生成的越南语角色数据集,旨在提高开源语言模型在角色扮演方面的能力。数据集包含446个由GPT-3.5生成的角色,其中400个为普通角色,46个为越南语角色。每个角色有20个由ChatGPT生成的话题,每个话题对应一段对话。数据集的构建过程分为四个步骤:角色生成、话题生成、对话生成以及检查和精炼。
这是一个由GPT生成的越南语角色数据集,旨在提高开源语言模型在角色扮演方面的能力。数据集包含446个由GPT-3.5生成的角色,其中400个为普通角色,46个为越南语角色。每个角色有20个由ChatGPT生成的话题,每个话题对应一段对话。数据集的构建过程分为四个步骤:角色生成、话题生成、对话生成以及检查和精炼。
提供机构:
bkai-foundation-models
原始信息汇总
越南角色扮演领域数据集
数据集概述
- 数据集名称: Vietnamese Role-play Realm Dataset
- 数据集描述: 该数据集包含由GPT-3.5生成的446个越南角色,旨在提高开源语言模型的角色扮演能力。每个角色有20个由ChatGPT生成的话题,每个话题对应一段对话。
- 数据集组成: 446个角色中,400个为普通角色,46个为越南角色。
数据集特征
- 特征列表:
name: 角色名称,数据类型为字符串。context: 角色背景,数据类型为字符串。greeting: 角色问候语,数据类型为字符串。example_dialogue: 示例对话,包含以下子字段:content: 对话内容,数据类型为字符串。role: 角色,数据类型为字符串。
topics: 话题序列,数据类型为字符串。dialogues: 对话列表,包含以下子字段:chat: 对话列表,包含以下子字段:content: 对话内容,数据类型为字符串。role: 角色,数据类型为字符串。
model_name: 模型名称,数据类型为字符串。topic: 话题,数据类型为字符串。
数据集分割
- 训练集: 包含446个示例。
任务类别
- 文本生成
语言
- 越南语
标签
gpt-4fictionalrole-playroleplaygpt-3.5art
数据集构建过程
- 角色生成: 基于提示和角色种子列表,使用GPT-3.5生成一组虚构角色,输出字段包括
name、context、greeting和example_dialogue。 - 话题生成: 根据角色描述生成对话话题,每个角色生成20个话题,输出字段为
topics。 - 对话生成: 基于角色描述和话题生成对话,输出字段为
dialogues。 - 检查和精炼: 由于数据集可能包含越南语错误,需要进行审查和修正以确保准确性和精炼。



