thesven/AetherCode-v1
收藏Hugging Face2024-06-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/thesven/AetherCode-v1
下载链接
链接失效反馈官方服务:
资源简介:
AetherCode数据集旨在通过多种编程语言的复杂真实世界编码场景来微调模型,推动AI在代码生成和软件开发领域的边界。数据集包含多个字段,如instruct、user、assistant、feedbacks和scores,分别表示编码指令、用户交互上下文、模型生成的响应、反馈和评分。数据集根据评分分为多个子集,并包含一个训练集。数据集的创建基于多个子数据集,涵盖了广泛的编码任务和挑战。
提供机构:
thesven
原始信息汇总
数据集概述
数据集信息
-
特征字段:
instruct: 字符串类型,描述编码问题或任务。user: 字符串类型,用户需求或交互的上下文。assistant: 字符串类型,模型生成的代码或响应。feedbacks: 字符串类型,与助手响应相关的反馈列表。scores: 整数类型,根据响应质量分配的分数,范围从1到5。
-
数据分割:
1star: 44,416条数据,大小为122,403,136.61425778字节。2star: 82,488条数据,大小为227,323,260.37997332字节。3star: 298,244条数据,大小为821,911,047.2888756字节。4star: 377,552条数据,大小为1,040,470,754.5701156字节。5star: 97,156条数据,大小为267,745,838.00645778字节。train: 900,000条数据,大小为2,480,250,877字节。
-
下载大小: 2,296,630,670字节
-
数据集大小: 4,960,104,913.85968字节
配置信息
- 默认配置:
- 数据文件路径:
1star:data/1star-*2star:data/2star-*3star:data/3star-*4star:data/4star-*5star:data/5star-*train:data/train-*
- 数据文件路径:
许可信息
- 许可类型: other
任务类别
- 文本生成
语言
- 英语
标签
- 代码
数据集名称
- Aether Code v1
数据集描述
-
摘要: "AetherCode"数据集旨在针对各种编程语言的编码任务进行模型微调,包含复杂的现实世界编码场景。它旨在推动AI在代码生成和软件开发方面的边界。
-
语言: 数据集包括多种编程语言的编码问题,包括但不限于Python、Java和JavaScript。
-
数据实例:
instruct: 详细的编码指令或问题。user: 用户交互上下文。assistant: 模型生成的响应。feedbacks: 对助手响应的反馈。scores: 响应的评估分数。
-
数据字段:
instruct: 字符串 - 描述编码问题或任务。user: 字符串 - 用户需求或交互的上下文。assistant: 字符串 - 包含模型生成的代码或响应。feedbacks: 列表 - 与助手响应相关的反馈项列表。scores: 整数 - 根据响应质量分配的分数,范围从1到5。
-
数据分割:
- 1星: 44,416行
- 2星: 82,488行
- 3星: 298,244行
- 4星: 377,552行
- 5星: 97,156行
- 训练集: 900,000行
数据集创建
-
策划理由: "AetherCode"数据集是从几个重要的子数据集中编译而成的:
- Evol-Instruct-Code-80k-v1
- Python_Code_Instructions_18k_Alpaca
- Code_Search_Net
- Code_Bagel
这些数据集被选择来涵盖广泛的编码任务和挑战,增强模型对不同编码范式的响应和理解。
额外信息
-
数据集策划者: 数据集由Michael Svendsen策划,利用huggingface资源创建了一个全面的编码挑战数据集。
-
许可信息: 由于此数据集的编译性质,部分数据受以下许可:
- MIT
- CC by NC
- Apache 2.0
-
引用信息: bibtex @misc{your-organization2024aethercode, title={AetherCode}, author={Michael Svendsen}, year={2024}, publisher={Michael Svendsen} }



