camel-ai/ai_society
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/ai_society
下载链接
链接失效反馈官方服务:
资源简介:
CAMEL AI Society数据集由25,000个对话组成,这些对话是在50个用户角色和50个助理角色之间进行的,每个组合运行了10个任务。数据集提供了两种格式:一种是chat格式,包含对话式的指令跟随格式;另一种是instruction格式,包含更具体的任务描述。数据字段详细描述了每种格式的结构,包括角色、任务、响应、指令、输入、输出和终止原因等。
提供机构:
camel-ai
原始信息汇总
数据集概述
数据集名称: CAMEL AI Society
数据集描述: AI Society数据集包含25,000次由两个gpt-3.5-turbo代理之间的对话。这些对话是通过50种用户角色和50种助理角色的组合,在10个任务上进行角色扮演而获得的。
数据格式:
- chat格式: 包含在
ai_society_chat.tar.gz文件中,遵循对话指令格式。 - instruction格式: 包含在
ai_society_instructions.json文件中。
数据字段
instruction格式 (ai_society_instructions.json) 的数据字段:
id: 角色和任务的索引组合。role_1: 助理角色。role_2: 用户角色。original_task: 分配给助理和用户的原始任务。specified_task: 经过任务指定后的具体任务。role_1_response: 指令前的用户响应文本。role_1_message_id: 完整对话中的消息ID。instruction: 描述助理应执行的任务。input: 提供指令的进一步上下文或信息。output: 由gpt-3.5-turbo生成的指令答案。termination_reason: 对话终止的原因。
chat格式 (ai_society_chat.tar.gz) 的数据字段:
input: 角色和任务的索引组合。role_1: 助理角色。role_2: 用户角色。original_task: 分配给助理和用户的原始任务。specified_task: 经过任务指定后的具体任务。message_k: 对话中的第k条消息。role_type: 代理是助理还是用户。role_name: 分配的助理/用户角色。role: 代理在消息中的角色。content: 消息内容。
termination_reason: 对话终止的原因。num_messages: 对话中的消息总数。
许可证
- 许可证: cc-by-nc-4.0
搜集汇总
数据集介绍

背景与挑战
背景概述
CAMEL-AI/ai_society数据集是一个用于指令微调的大规模对话数据集,包含2.5万条由gpt-3.5-turbo生成的代理角色扮演对话,覆盖50种用户角色和50种助手角色的多种任务组合。该数据集提供聊天和指令两种格式,支持文本生成研究,但存在数据生成错误,部分文件列不匹配,需注意数据一致性。
以上内容由遇见数据集搜集并总结生成



