camel-ai/code

Name: camel-ai/code
Creator: camel-ai
Published: 2023-05-23 21:13:16
License: 暂无描述

Hugging Face2023-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/camel-ai/code

下载链接

链接失效反馈

官方服务：

资源简介：

CAMEL Code数据集由50K个GPT-3.5-turbo代理之间的对话组成，模拟了特定编程语言的程序员与特定领域的人之间的对话。该数据集涵盖了20种编程语言和50个领域，每种语言和领域的组合有50个任务。数据集提供了两种格式：chat格式和instruction格式。chat格式包含对话式的指令跟随格式，而instruction格式则包含任务指令的JSON文件。数据字段详细描述了每种格式的结构和内容。

提供机构：

camel-ai

原始信息汇总

数据集概述

基本信息

数据集名称: CAMEL Code
语言: 英语
许可: CC-BY-NC-4.0
任务类别: 文本生成
数据集描述: 包含50,000次对话，模拟特定编程语言的程序员与特定领域的另一人之间的交流。涵盖20种编程语言和50个领域，每种语言与领域的组合有50个任务。

数据格式

聊天格式: code_chat.tar.gz，包含对话指令的格式化文件。
指令格式: code_instructions.json，包含详细的任务指令。

数据字段

指令格式 (`code_instructions.json`)

id: 标识符，格式为{assistant\_role\_index}\_{user\_role\_index}\_{task\_index}。
role_1: 助手角色。
role_2: 用户角色。
original_task: 原始任务描述。
specified_task: 经过细化后的任务描述。
role_1_response: 指令前的用户响应文本。
role_1_message_id: 完整对话中的消息ID。
instruction: 助手应执行的任务描述。
input: 提供给定指令的额外上下文或信息。
output: 由gpt-3.5-turbo生成的指令答案。
termination_reason: 对话终止的原因。

聊天格式 (`code_chat.tar.gz`)

input: 标识符，格式同上。
role_1: 助手角色。
role_2: 用户角色。
original_task: 原始任务描述。
specified_task: 细化后的任务描述。
message_k: 对话中的第k条消息。
- role_type: 角色类型（助手或用户）。
- role_name: 分配的角色名称。
- role: 角色（通常不需要）。
- content: 消息内容。
termination_reason: 对话终止的原因。
num_messages: 对话中的消息总数。

下载方式

python from huggingface_hub import hf_hub_download hf_hub_download(repo_id="camel-ai/code", repo_type="dataset", filename="code_chat.tar.gz", local_dir="datasets/", local_dir_use_symlinks=False)

注意事项

数据集由gpt-3.5-turbo合成生成，可能包含不准确信息。
仅供研究使用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集