kobprof/skolegpt-instruct

Name: kobprof/skolegpt-instruct
Creator: kobprof
Published: 2024-05-24 11:09:08
License: 暂无描述

Hugging Face2024-05-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kobprof/skolegpt-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

SkoleGPT Instruction Dataset是一个用于丹麦语指令微调的开源数据集，基于OpenOrca数据集的一个质量过滤子集进行翻译。该数据集是SkoleGPT项目的一部分，包含id、system_prompt、question、response和source等特征，主要用于文本生成任务。数据集的创建过程包括数据采样、过滤、翻译和调查指令的收集。数据集由Kasper Junge策划，开发资金由Københavns Professionshøjskole提供，翻译资金由Danish Foundation Models提供，并以MIT许可证共享。

提供机构：

kobprof

原始信息汇总

数据集概述

基本信息

名称: SkoleGPT Instruction Dataset
语言: 丹麦语
数据类型: 文本生成
大小范围: 10K<n<100K
许可证: MIT

数据集结构

特征:
- id: 字符串
- system_prompt: 字符串
- question: 字符串
- response: 字符串
- source: 字符串
分割:
- train: 21580个示例，数据大小37228526字节

数据集来源

原始数据: 从OpenOrca数据集中筛选的子集
翻译资助: 丹麦基础模型基金会

数据处理

数据采样: 从OpenOrca数据集的"1M-GPT4-Augmented.parquet"文件中随机抽样
数据过滤: 包括去除已翻译指令、翻译指令、常见前缀和后缀、以冒号结尾的问题、多选题、重复问题和响应，以及去除特殊字符
翻译: 使用DeepL服务进行翻译

数据集创建者

策划者: Kasper Junge
开发资助: Københavns Professionshøjskole
共享者: Københavns Professionshøjskole

5,000+

优质数据集

54 个

任务类型

进入经典数据集