five

camel-ai/ai_society_translated

收藏
Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/ai_society_translated
下载链接
链接失效反馈
官方服务:
资源简介:
原始AI Society数据集为英文,包含25,000个由两个gpt-3.5-turbo代理进行的对话。这些对话是通过为50个用户角色和50个助手角色的组合运行角色扮演任务生成的,每个组合运行超过10个任务。我们提供了原始英文数据集的翻译版本,支持阿拉伯语、中文、韩语、日语、印地语、俄语、西班牙语、法语、德语和意大利语,以“.zip”格式提供。数据集通过提示gpt-3.5-turbo将句子翻译成特定语言生成。注意:有时gpt可能不会翻译特定关键词,如“Instruction”、“Input”和“Solution”,因此根据使用情况可能需要进行清理。

原始AI Society数据集为英文,包含25,000个由两个gpt-3.5-turbo代理进行的对话。这些对话是通过为50个用户角色和50个助手角色的组合运行角色扮演任务生成的,每个组合运行超过10个任务。我们提供了原始英文数据集的翻译版本,支持阿拉伯语、中文、韩语、日语、印地语、俄语、西班牙语、法语、德语和意大利语,以“.zip”格式提供。数据集通过提示gpt-3.5-turbo将句子翻译成特定语言生成。注意:有时gpt可能不会翻译特定关键词,如“Instruction”、“Input”和“Solution”,因此根据使用情况可能需要进行清理。
提供机构:
camel-ai
原始信息汇总

CAMEL AI Society Translated Dataset Summary

基本信息

  • 许可证: cc-by-nc-4.0
  • 支持语言: 阿拉伯语, 中文, 韩语, 日语, 印地语, 俄语, 西班牙语, 法语, 德语, 意大利语
  • 标签: instruction-finetuning
  • 任务类别: text-generation
  • Arxiv 编号: 2303.17760

数据集描述

  • 原始数据集: 英语, 包含25,000次由两个gpt-3.5-turbo代理之间的对话组成。这些对话是通过50个用户角色和50个助手角色的组合,每个组合执行10个任务来生成的。
  • 翻译版本: 提供原始英语数据集的翻译版本,涵盖十种语言,并以".zip"格式提供。
  • 翻译方法: 使用gpt-3.5-turbo通过提示将句子翻译成特定语言。
  • 注意事项: 某些关键词如“Instruction”, “Input”, 和 “Solution”可能未被翻译,根据使用情况可能需要进行清理。

数据字段

  • 格式: ai_society_chat_{language}.zip
  • 字段:
    • input: 角色和任务的索引组合
    • role_1: 助手角色
    • role_2: 用户角色
    • original_task: 分配给助手和用户的原始任务
    • specified_task: 经过任务指定后的具体任务
    • message_k: 对话中的第k条消息
      • role_type: 代理类型(助手或用户)
      • role_name: 分配的角色名称
      • role: 角色(通常不需要)
      • content: 消息内容
    • termination_reason: 聊天终止的原因
    • num_messages: 聊天中的消息总数

下载方式

python from huggingface_hub import hf_hub_download

替换{language}为以下之一: ar, zh, ko, ja, hi, ru, es, fr, de, it

hf_hub_download(repo_id="camel-ai/ai_society_translated", repo_type="dataset", filename="ai_society_chat_{language}.zip", local_dir="datasets/", local_dir_use_symlinks=False)

免责声明

本数据集由gpt-3.5-turbo合成生成,可能包含不准确信息,仅供研究使用。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是CAMEL项目的一部分,包含多语言角色扮演对话,用于研究大规模语言模型社会的交互。数据集通过GPT-3.5-turbo翻译生成,覆盖多种语言和角色组合,适用于自然语言处理和人工智能研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作