five

hpcgroup/hpc-instruct

收藏
Hugging Face2024-08-09 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/hpcgroup/hpc-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于训练HPC-Coder-v2模型的高性能计算(HPC)代码指令数据集,包含58k个样本,这些样本是通过Gemini Pro、DBRX和Mixtral生成的。数据集包含四种类型的指令样本:代码合成、并行化、优化和代码翻译。代码合成的指令要求LLM生成代码以解决HPC相关问题;并行化的指令要求LLM将现有的顺序代码并行化;优化的指令要求LLM优化现有代码;翻译的指令要求LLM将代码从一种执行模型翻译到另一种执行模型(例如从CUDA到OpenMP)。

This is an HPC code instruct dataset that was used to train the HPC-Coder-v2 models. There are 58k samples generated synthetically using Gemini Pro, DBRX, and Mixtral. There are four types of instruct samples in HPC-Instruct: Code Synthesis, Parallelization, Optimization, and Translation. Code Synthesis tasks the LLM to generate code to solve an HPC related problem; Parallelization tasks the LLM to parallelize an existing sequential code; Optimization tasks the LLM to optimize an existing code; Translation tasks the LLM to translate code from one execution model to another (i.e. CUDA to OpenMP).
提供机构:
hpcgroup
原始信息汇总

HPC-Instruct 数据集概述

数据集信息

  • 许可证: MIT
  • 特征:
    • language: 字符串类型
    • seed: 字符串类型
    • problem statement: 字符串类型
    • solution: 字符串类型
    • model: 字符串类型
  • 分割:
    • train: 包含 58836 个样本,大小为 133136026.43247458 字节
  • 下载大小: 63677560 字节
  • 数据集大小: 133136026.43247458 字节
  • 配置:
    • default: 包含训练数据文件 data/train-*
  • 语言: 英语
  • 标签:
    • code
  • 名称: HPC-Instruct
  • 大小类别: 10K < n < 100K

数据集内容

  • 样本数量: 58k 样本
  • 生成方式: 使用 Gemini Pro, DBRX, 和 Mixtral 合成生成
  • 样本类型:
    • 代码合成: 生成解决HPC相关问题的代码
    • 并行化: 将现有顺序代码并行化
    • 优化: 优化现有代码
    • 翻译: 将代码从一种执行模型翻译到另一种(如CUDA到OpenMP)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作