camel-ai/ai_society_translated
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/ai_society_translated
下载链接
链接失效反馈官方服务:
资源简介:
原始AI Society数据集为英文,包含25,000个由两个gpt-3.5-turbo代理进行的对话。这些对话是通过为50个用户角色和50个助手角色的组合运行角色扮演任务生成的,每个组合运行超过10个任务。我们提供了原始英文数据集的翻译版本,支持阿拉伯语、中文、韩语、日语、印地语、俄语、西班牙语、法语、德语和意大利语,以“.zip”格式提供。数据集通过提示gpt-3.5-turbo将句子翻译成特定语言生成。注意:有时gpt可能不会翻译特定关键词,如“Instruction”、“Input”和“Solution”,因此根据使用情况可能需要进行清理。
原始AI Society数据集为英文,包含25,000个由两个gpt-3.5-turbo代理进行的对话。这些对话是通过为50个用户角色和50个助手角色的组合运行角色扮演任务生成的,每个组合运行超过10个任务。我们提供了原始英文数据集的翻译版本,支持阿拉伯语、中文、韩语、日语、印地语、俄语、西班牙语、法语、德语和意大利语,以“.zip”格式提供。数据集通过提示gpt-3.5-turbo将句子翻译成特定语言生成。注意:有时gpt可能不会翻译特定关键词,如“Instruction”、“Input”和“Solution”,因此根据使用情况可能需要进行清理。
提供机构:
camel-ai
原始信息汇总
CAMEL AI Society Translated Dataset Summary
基本信息
- 许可证: cc-by-nc-4.0
- 支持语言: 阿拉伯语, 中文, 韩语, 日语, 印地语, 俄语, 西班牙语, 法语, 德语, 意大利语
- 标签: instruction-finetuning
- 任务类别: text-generation
- Arxiv 编号: 2303.17760
数据集描述
- 原始数据集: 英语, 包含25,000次由两个gpt-3.5-turbo代理之间的对话组成。这些对话是通过50个用户角色和50个助手角色的组合,每个组合执行10个任务来生成的。
- 翻译版本: 提供原始英语数据集的翻译版本,涵盖十种语言,并以".zip"格式提供。
- 翻译方法: 使用gpt-3.5-turbo通过提示将句子翻译成特定语言。
- 注意事项: 某些关键词如“Instruction”, “Input”, 和 “Solution”可能未被翻译,根据使用情况可能需要进行清理。
数据字段
- 格式:
ai_society_chat_{language}.zip - 字段:
input: 角色和任务的索引组合role_1: 助手角色role_2: 用户角色original_task: 分配给助手和用户的原始任务specified_task: 经过任务指定后的具体任务message_k: 对话中的第k条消息role_type: 代理类型(助手或用户)role_name: 分配的角色名称role: 角色(通常不需要)content: 消息内容
termination_reason: 聊天终止的原因num_messages: 聊天中的消息总数
下载方式
python from huggingface_hub import hf_hub_download
替换{language}为以下之一: ar, zh, ko, ja, hi, ru, es, fr, de, it
hf_hub_download(repo_id="camel-ai/ai_society_translated", repo_type="dataset", filename="ai_society_chat_{language}.zip", local_dir="datasets/", local_dir_use_symlinks=False)
免责声明
本数据集由gpt-3.5-turbo合成生成,可能包含不准确信息,仅供研究使用。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是CAMEL项目的一部分,包含多语言角色扮演对话,用于研究大规模语言模型社会的交互。数据集通过GPT-3.5-turbo翻译生成,覆盖多种语言和角色组合,适用于自然语言处理和人工智能研究。
以上内容由遇见数据集搜集并总结生成



