five

camel-ai/code

收藏
Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/code
下载链接
链接失效反馈
官方服务:
资源简介:
CAMEL Code数据集由50K个GPT-3.5-turbo代理之间的对话组成,模拟了特定编程语言的程序员与特定领域的人之间的对话。该数据集涵盖了20种编程语言和50个领域,每种语言和领域的组合有50个任务。数据集提供了两种格式:chat格式和instruction格式。chat格式包含对话式的指令跟随格式,而instruction格式则包含任务指令的JSON文件。数据字段详细描述了每种格式的结构和内容。

CAMEL Code数据集由50K个GPT-3.5-turbo代理之间的对话组成,模拟了特定编程语言的程序员与特定领域的人之间的对话。该数据集涵盖了20种编程语言和50个领域,每种语言和领域的组合有50个任务。数据集提供了两种格式:chat格式和instruction格式。chat格式包含对话式的指令跟随格式,而instruction格式则包含任务指令的JSON文件。数据字段详细描述了每种格式的结构和内容。
提供机构:
camel-ai
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CAMEL Code
  • 语言: 英语
  • 许可: CC-BY-NC-4.0
  • 任务类别: 文本生成
  • 数据集描述: 包含50,000次对话,模拟特定编程语言的程序员与特定领域的另一人之间的交流。涵盖20种编程语言和50个领域,每种语言与领域的组合有50个任务。

数据格式

  • 聊天格式: code_chat.tar.gz,包含对话指令的格式化文件。
  • 指令格式: code_instructions.json,包含详细的任务指令。

数据字段

指令格式 (code_instructions.json)

  • id: 标识符,格式为{assistant\_role\_index}\_{user\_role\_index}\_{task\_index}
  • role_1: 助手角色。
  • role_2: 用户角色。
  • original_task: 原始任务描述。
  • specified_task: 经过细化后的任务描述。
  • role_1_response: 指令前的用户响应文本。
  • role_1_message_id: 完整对话中的消息ID。
  • instruction: 助手应执行的任务描述。
  • input: 提供给定指令的额外上下文或信息。
  • output: 由gpt-3.5-turbo生成的指令答案。
  • termination_reason: 对话终止的原因。

聊天格式 (code_chat.tar.gz)

  • input: 标识符,格式同上。
  • role_1: 助手角色。
  • role_2: 用户角色。
  • original_task: 原始任务描述。
  • specified_task: 细化后的任务描述。
  • message_k: 对话中的第k条消息。
    • role_type: 角色类型(助手或用户)。
    • role_name: 分配的角色名称。
    • role: 角色(通常不需要)。
    • content: 消息内容。
  • termination_reason: 对话终止的原因。
  • num_messages: 对话中的消息总数。

下载方式

python from huggingface_hub import hf_hub_download hf_hub_download(repo_id="camel-ai/code", repo_type="dataset", filename="code_chat.tar.gz", local_dir="datasets/", local_dir_use_symlinks=False)

注意事项

  • 数据集由gpt-3.5-turbo合成生成,可能包含不准确信息。
  • 仅供研究使用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作