kobprof/skolegpt-instruct
收藏Hugging Face2024-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kobprof/skolegpt-instruct
下载链接
链接失效反馈官方服务:
资源简介:
SkoleGPT Instruction Dataset是一个用于丹麦语指令微调的开源数据集,基于OpenOrca数据集的一个质量过滤子集进行翻译。该数据集是SkoleGPT项目的一部分,包含id、system_prompt、question、response和source等特征,主要用于文本生成任务。数据集的创建过程包括数据采样、过滤、翻译和调查指令的收集。数据集由Kasper Junge策划,开发资金由Københavns Professionshøjskole提供,翻译资金由Danish Foundation Models提供,并以MIT许可证共享。
提供机构:
kobprof
原始信息汇总
数据集概述
基本信息
- 名称: SkoleGPT Instruction Dataset
- 语言: 丹麦语
- 数据类型: 文本生成
- 大小范围: 10K<n<100K
- 许可证: MIT
数据集结构
- 特征:
- id: 字符串
- system_prompt: 字符串
- question: 字符串
- response: 字符串
- source: 字符串
- 分割:
- train: 21580个示例,数据大小37228526字节
数据集来源
- 原始数据: 从OpenOrca数据集中筛选的子集
- 翻译资助: 丹麦基础模型基金会
数据处理
- 数据采样: 从OpenOrca数据集的"1M-GPT4-Augmented.parquet"文件中随机抽样
- 数据过滤: 包括去除已翻译指令、翻译指令、常见前缀和后缀、以冒号结尾的问题、多选题、重复问题和响应,以及去除特殊字符
- 翻译: 使用DeepL服务进行翻译
数据集创建者
- 策划者: Kasper Junge
- 开发资助: Københavns Professionshøjskole
- 共享者: Københavns Professionshøjskole



