five

kobprof/skolegpt-instruct

收藏
Hugging Face2024-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kobprof/skolegpt-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
SkoleGPT Instruction Dataset是一个用于丹麦语指令微调的开源数据集,基于OpenOrca数据集的一个质量过滤子集进行翻译。该数据集是SkoleGPT项目的一部分,包含id、system_prompt、question、response和source等特征,主要用于文本生成任务。数据集的创建过程包括数据采样、过滤、翻译和调查指令的收集。数据集由Kasper Junge策划,开发资金由Københavns Professionshøjskole提供,翻译资金由Danish Foundation Models提供,并以MIT许可证共享。
提供机构:
kobprof
原始信息汇总

数据集概述

基本信息

  • 名称: SkoleGPT Instruction Dataset
  • 语言: 丹麦语
  • 数据类型: 文本生成
  • 大小范围: 10K<n<100K
  • 许可证: MIT

数据集结构

  • 特征:
    • id: 字符串
    • system_prompt: 字符串
    • question: 字符串
    • response: 字符串
    • source: 字符串
  • 分割:
    • train: 21580个示例,数据大小37228526字节

数据集来源

  • 原始数据: 从OpenOrca数据集中筛选的子集
  • 翻译资助: 丹麦基础模型基金会

数据处理

  • 数据采样: 从OpenOrca数据集的"1M-GPT4-Augmented.parquet"文件中随机抽样
  • 数据过滤: 包括去除已翻译指令、翻译指令、常见前缀和后缀、以冒号结尾的问题、多选题、重复问题和响应,以及去除特殊字符
  • 翻译: 使用DeepL服务进行翻译

数据集创建者

  • 策划者: Kasper Junge
  • 开发资助: Københavns Professionshøjskole
  • 共享者: Københavns Professionshøjskole
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作