camel-ai/ai_society_translated

Name: camel-ai/ai_society_translated
Creator: camel-ai
Published: 2023-05-23 21:12:39
License: 暂无描述

Hugging Face2023-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/camel-ai/ai_society_translated

下载链接

链接失效反馈

官方服务：

资源简介：

原始AI Society数据集为英文，包含25,000个由两个gpt-3.5-turbo代理进行的对话。这些对话是通过为50个用户角色和50个助手角色的组合运行角色扮演任务生成的，每个组合运行超过10个任务。我们提供了原始英文数据集的翻译版本，支持阿拉伯语、中文、韩语、日语、印地语、俄语、西班牙语、法语、德语和意大利语，以“.zip”格式提供。数据集通过提示gpt-3.5-turbo将句子翻译成特定语言生成。注意：有时gpt可能不会翻译特定关键词，如“Instruction”、“Input”和“Solution”，因此根据使用情况可能需要进行清理。

提供机构：

camel-ai

原始信息汇总

CAMEL AI Society Translated Dataset Summary

基本信息

许可证: cc-by-nc-4.0
支持语言: 阿拉伯语, 中文, 韩语, 日语, 印地语, 俄语, 西班牙语, 法语, 德语, 意大利语
标签: instruction-finetuning
任务类别: text-generation
Arxiv 编号: 2303.17760

数据集描述

原始数据集: 英语, 包含25,000次由两个gpt-3.5-turbo代理之间的对话组成。这些对话是通过50个用户角色和50个助手角色的组合，每个组合执行10个任务来生成的。
翻译版本: 提供原始英语数据集的翻译版本，涵盖十种语言，并以".zip"格式提供。
翻译方法: 使用gpt-3.5-turbo通过提示将句子翻译成特定语言。
注意事项: 某些关键词如“Instruction”, “Input”, 和 “Solution”可能未被翻译，根据使用情况可能需要进行清理。

数据字段

格式: ai_society_chat_{language}.zip
字段:
- input: 角色和任务的索引组合
- role_1: 助手角色
- role_2: 用户角色
- original_task: 分配给助手和用户的原始任务
- specified_task: 经过任务指定后的具体任务
- message_k: 对话中的第k条消息
  - role_type: 代理类型（助手或用户）
  - role_name: 分配的角色名称
  - role: 角色（通常不需要）
  - content: 消息内容
- termination_reason: 聊天终止的原因
- num_messages: 聊天中的消息总数

下载方式

python from huggingface_hub import hf_hub_download

替换{language}为以下之一: ar, zh, ko, ja, hi, ru, es, fr, de, it

hf_hub_download(repo_id="camel-ai/ai_society_translated", repo_type="dataset", filename="ai_society_chat_{language}.zip", local_dir="datasets/", local_dir_use_symlinks=False)

免责声明

本数据集由gpt-3.5-turbo合成生成，可能包含不准确信息，仅供研究使用。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是CAMEL项目的一部分，包含多语言角色扮演对话，用于研究大规模语言模型社会的交互。数据集通过GPT-3.5-turbo翻译生成，覆盖多种语言和角色组合，适用于自然语言处理和人工智能研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集