Daoguang/CodeM-Multilinugal-Data

Name: Daoguang/CodeM-Multilinugal-Data
Creator: Daoguang
Published: 2023-09-01 02:33:32
License: 暂无描述

Hugging Face2023-09-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Daoguang/CodeM-Multilinugal-Data

下载链接

链接失效反馈

官方服务：

资源简介：

CodeM数据集是一个用于探索编程语言在代码大语言模型指令微调阶段是否能够相互促进的研究数据集。该数据集包含了8种流行的编程语言（Python、JavaScript、TypeScript、C、C++、Java、Go、HTML）的代码数据，并在StarCoder模型上进行了广泛的实验。实验结果表明，编程语言在指令微调阶段能够显著相互促进。例如，基于Python训练的CodeM-Python 15B模型能够将Java的HumanEval-X pass@1指标提高17.95%。更令人惊讶的是，基于HTML训练的CodeM-HTML 7B模型也能够将Java的HumanEval-X pass@1指标提高15.24%。该数据集的训练数据已公开发布。

提供机构：

Daoguang

原始信息汇总

CodeM数据集概述

数据集信息

许可证: Apache-2.0
配置名称: default
数据文件:
- Python: python.json
- JavaScript: js.json
- TypeScript: ts.json
- C: c.json
- C++: cpp.json
- Java: java.json
- Go: go.json
- HTML: html.json
- Mixed: mixed.json
语言: 英语
名称: CodeM_data
大小类别: 10K<n<100K

数据集描述

CodeM数据集用于研究编程语言在代码大型语言模型的指令微调阶段是否能够相互促进。该数据集包含8种流行编程语言（Python、JavaScript、TypeScript、C、C++、Java、Go、HTML）的训练数据。实验结果表明，编程语言之间可以显著提高彼此的性能。

使用方法

python from datasets import load_dataset

加载CodeM的训练数据

dataset = load_dataset("Daoguang/CodeM-Multilinugal-Data")

5,000+

优质数据集

54 个

任务类型

进入经典数据集