hpcgroup/hpc-instruct
收藏Hugging Face2024-08-09 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/hpcgroup/hpc-instruct
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练HPC-Coder-v2模型的高性能计算(HPC)代码指令数据集,包含58k个样本,这些样本是通过Gemini Pro、DBRX和Mixtral生成的。数据集包含四种类型的指令样本:代码合成、并行化、优化和代码翻译。代码合成的指令要求LLM生成代码以解决HPC相关问题;并行化的指令要求LLM将现有的顺序代码并行化;优化的指令要求LLM优化现有代码;翻译的指令要求LLM将代码从一种执行模型翻译到另一种执行模型(例如从CUDA到OpenMP)。
This is an HPC code instruct dataset that was used to train the HPC-Coder-v2 models. There are 58k samples generated synthetically using Gemini Pro, DBRX, and Mixtral. There are four types of instruct samples in HPC-Instruct: Code Synthesis, Parallelization, Optimization, and Translation. Code Synthesis tasks the LLM to generate code to solve an HPC related problem; Parallelization tasks the LLM to parallelize an existing sequential code; Optimization tasks the LLM to optimize an existing code; Translation tasks the LLM to translate code from one execution model to another (i.e. CUDA to OpenMP).
提供机构:
hpcgroup
原始信息汇总
HPC-Instruct 数据集概述
数据集信息
- 许可证: MIT
- 特征:
language: 字符串类型seed: 字符串类型problem statement: 字符串类型solution: 字符串类型model: 字符串类型
- 分割:
train: 包含 58836 个样本,大小为 133136026.43247458 字节
- 下载大小: 63677560 字节
- 数据集大小: 133136026.43247458 字节
- 配置:
default: 包含训练数据文件data/train-*
- 语言: 英语
- 标签:
code
- 名称: HPC-Instruct
- 大小类别: 10K < n < 100K
数据集内容
- 样本数量: 58k 样本
- 生成方式: 使用 Gemini Pro, DBRX, 和 Mixtral 合成生成
- 样本类型:
- 代码合成: 生成解决HPC相关问题的代码
- 并行化: 将现有顺序代码并行化
- 优化: 优化现有代码
- 翻译: 将代码从一种执行模型翻译到另一种(如CUDA到OpenMP)



