five

thesven/AetherCode-v1

收藏
Hugging Face2024-06-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/thesven/AetherCode-v1
下载链接
链接失效反馈
官方服务:
资源简介:
AetherCode数据集旨在通过多种编程语言的复杂真实世界编码场景来微调模型,推动AI在代码生成和软件开发领域的边界。数据集包含多个字段,如instruct、user、assistant、feedbacks和scores,分别表示编码指令、用户交互上下文、模型生成的响应、反馈和评分。数据集根据评分分为多个子集,并包含一个训练集。数据集的创建基于多个子数据集,涵盖了广泛的编码任务和挑战。
提供机构:
thesven
原始信息汇总

数据集概述

数据集信息

  • 特征字段:

    • instruct: 字符串类型,描述编码问题或任务。
    • user: 字符串类型,用户需求或交互的上下文。
    • assistant: 字符串类型,模型生成的代码或响应。
    • feedbacks: 字符串类型,与助手响应相关的反馈列表。
    • scores: 整数类型,根据响应质量分配的分数,范围从1到5。
  • 数据分割:

    • 1star: 44,416条数据,大小为122,403,136.61425778字节。
    • 2star: 82,488条数据,大小为227,323,260.37997332字节。
    • 3star: 298,244条数据,大小为821,911,047.2888756字节。
    • 4star: 377,552条数据,大小为1,040,470,754.5701156字节。
    • 5star: 97,156条数据,大小为267,745,838.00645778字节。
    • train: 900,000条数据,大小为2,480,250,877字节。
  • 下载大小: 2,296,630,670字节

  • 数据集大小: 4,960,104,913.85968字节

配置信息

  • 默认配置:
    • 数据文件路径:
      • 1star: data/1star-*
      • 2star: data/2star-*
      • 3star: data/3star-*
      • 4star: data/4star-*
      • 5star: data/5star-*
      • train: data/train-*

许可信息

  • 许可类型: other

任务类别

  • 文本生成

语言

  • 英语

标签

  • 代码

数据集名称

  • Aether Code v1

数据集描述

  • 摘要: "AetherCode"数据集旨在针对各种编程语言的编码任务进行模型微调,包含复杂的现实世界编码场景。它旨在推动AI在代码生成和软件开发方面的边界。

  • 语言: 数据集包括多种编程语言的编码问题,包括但不限于Python、Java和JavaScript。

  • 数据实例:

    • instruct: 详细的编码指令或问题。
    • user: 用户交互上下文。
    • assistant: 模型生成的响应。
    • feedbacks: 对助手响应的反馈。
    • scores: 响应的评估分数。
  • 数据字段:

    • instruct: 字符串 - 描述编码问题或任务。
    • user: 字符串 - 用户需求或交互的上下文。
    • assistant: 字符串 - 包含模型生成的代码或响应。
    • feedbacks: 列表 - 与助手响应相关的反馈项列表。
    • scores: 整数 - 根据响应质量分配的分数,范围从1到5。
  • 数据分割:

    • 1星: 44,416行
    • 2星: 82,488行
    • 3星: 298,244行
    • 4星: 377,552行
    • 5星: 97,156行
    • 训练集: 900,000行

数据集创建

  • 策划理由: "AetherCode"数据集是从几个重要的子数据集中编译而成的:

    1. Evol-Instruct-Code-80k-v1
    2. Python_Code_Instructions_18k_Alpaca
    3. Code_Search_Net
    4. Code_Bagel

    这些数据集被选择来涵盖广泛的编码任务和挑战,增强模型对不同编码范式的响应和理解。

额外信息

  • 数据集策划者: 数据集由Michael Svendsen策划,利用huggingface资源创建了一个全面的编码挑战数据集。

  • 许可信息: 由于此数据集的编译性质,部分数据受以下许可:

    • MIT
    • CC by NC
    • Apache 2.0
  • 引用信息: bibtex @misc{your-organization2024aethercode, title={AetherCode}, author={Michael Svendsen}, year={2024}, publisher={Michael Svendsen} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作