camel-ai/code
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/code
下载链接
链接失效反馈官方服务:
资源简介:
CAMEL Code数据集由50K个GPT-3.5-turbo代理之间的对话组成,模拟了特定编程语言的程序员与特定领域的人之间的对话。该数据集涵盖了20种编程语言和50个领域,每种语言和领域的组合有50个任务。数据集提供了两种格式:chat格式和instruction格式。chat格式包含对话式的指令跟随格式,而instruction格式则包含任务指令的JSON文件。数据字段详细描述了每种格式的结构和内容。
CAMEL Code数据集由50K个GPT-3.5-turbo代理之间的对话组成,模拟了特定编程语言的程序员与特定领域的人之间的对话。该数据集涵盖了20种编程语言和50个领域,每种语言和领域的组合有50个任务。数据集提供了两种格式:chat格式和instruction格式。chat格式包含对话式的指令跟随格式,而instruction格式则包含任务指令的JSON文件。数据字段详细描述了每种格式的结构和内容。
提供机构:
camel-ai
原始信息汇总
数据集概述
基本信息
- 数据集名称: CAMEL Code
- 语言: 英语
- 许可: CC-BY-NC-4.0
- 任务类别: 文本生成
- 数据集描述: 包含50,000次对话,模拟特定编程语言的程序员与特定领域的另一人之间的交流。涵盖20种编程语言和50个领域,每种语言与领域的组合有50个任务。
数据格式
- 聊天格式:
code_chat.tar.gz,包含对话指令的格式化文件。 - 指令格式:
code_instructions.json,包含详细的任务指令。
数据字段
指令格式 (code_instructions.json)
id: 标识符,格式为{assistant\_role\_index}\_{user\_role\_index}\_{task\_index}。role_1: 助手角色。role_2: 用户角色。original_task: 原始任务描述。specified_task: 经过细化后的任务描述。role_1_response: 指令前的用户响应文本。role_1_message_id: 完整对话中的消息ID。instruction: 助手应执行的任务描述。input: 提供给定指令的额外上下文或信息。output: 由gpt-3.5-turbo生成的指令答案。termination_reason: 对话终止的原因。
聊天格式 (code_chat.tar.gz)
input: 标识符,格式同上。role_1: 助手角色。role_2: 用户角色。original_task: 原始任务描述。specified_task: 细化后的任务描述。message_k: 对话中的第k条消息。role_type: 角色类型(助手或用户)。role_name: 分配的角色名称。role: 角色(通常不需要)。content: 消息内容。
termination_reason: 对话终止的原因。num_messages: 对话中的消息总数。
下载方式
python from huggingface_hub import hf_hub_download hf_hub_download(repo_id="camel-ai/code", repo_type="dataset", filename="code_chat.tar.gz", local_dir="datasets/", local_dir_use_symlinks=False)
注意事项
- 数据集由gpt-3.5-turbo合成生成,可能包含不准确信息。
- 仅供研究使用。



