skolegpt-instruct

github2024-01-29 更新2024-05-31 收录

下载链接：

https://github.com/Kobenhavns-Professionshojskole/skolegpt-instruct-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

skolegpt-instruct是一个开源的丹麦语指令数据集，用于LLM的微调。该数据集是[OpenOrca指令数据集](https://huggingface.co/datasets/Open-Orca/OpenOrca)的一个高质量过滤子集的翻译。该项目是[SkoleGPT项目](https://skolegpt.dk/)的一部分。

SkoleGPT-instruct系一项开源的丹麦语指令数据集，旨在为大语言模型提供微调之用。该数据集源自[OpenOrca指令数据集](https://huggingface.co/datasets/Open-Orca/OpenOrca)，经过精心筛选，成为其高质量过滤子集的翻译版本。该项目构成了[SkoleGPT项目](https://skolegpt.dk/)的重要组成部分。

创建时间：

2024-01-29

原始信息汇总

SkoleGPT Instruct Dataset 概述

数据集描述

"skolegpt-instruct" 是一个开源数据集，用于丹麦语指令的微调大型语言模型（LLM）。该数据集是对 OpenOrca 指令数据集的一个高质量过滤子集的翻译。该项目是 SkoleGPT 项目的一部分。数据集可在 Hugging Face 上找到，地址为 kobprof/skolegpt-instruct。

数据处理流程

数据集的创建包括以下四个步骤：

数据采样：从 OpenOrca 数据集中加载并打乱数据，特别是 "1M-GPT4-Augmented.parquet" 文件。选择特定数量的条目形成子集，并添加 "source" 列以跟踪来源。
数据过滤：通过 filter_data 函数对原始数据集进行预处理和过滤。过滤步骤包括去除已翻译的指令、翻译指令、常见前缀和后缀、以冒号结尾的问题、多选题，以及进行基本清洁和去除特殊字符。
数据分层：根据 OpenOrca 的来源（niv, flan, cot, t0）对采样数据集进行分层。
数据翻译：使用 DeepL 服务进行数据翻译。翻译过程需要 DeepL 账户，并利用其 API 进行翻译，最多可免费翻译 500,000 个字符。

附加信息

数据集中还包含从 SkoleGPT 进行的调查中收集的指令，每条指令都与 GPT-4 的响应配对。这些指令标记为 "skolegpt_survey" 来源。相关的代码和调查问题分别可在 "survey2instructions.ipynb" 笔记本和 ./data/survey_questions.txt 中找到。

搜集汇总

数据集介绍

构建方式

skolegpt-instruct数据集的构建过程分为四个主要步骤：采样、过滤、分层和翻译。首先，从OpenOrca数据集中加载并随机抽取指定数量的条目，形成子集，并添加“source”列以追踪数据来源。接着，通过一系列过滤步骤去除已翻译的指令、翻译指令、常见前缀和后缀、以冒号结尾的问题、多选题以及包含异国字符的条目，并进行基本清洗和去重处理。随后，数据集按照OpenOrca的来源进行分层，确保数据分布的均衡性。最后，利用DeepL服务将数据集翻译为丹麦语，仅翻译独特的系统提示以节省字符使用。

特点

skolegpt-instruct数据集的特点在于其高质量和针对性。作为OpenOrca数据集的丹麦语翻译版本，它经过严格的过滤和清洗，确保数据的纯净性和一致性。数据集不仅包含翻译后的指令，还整合了来自SkoleGPT项目的调查指令，每条指令均配有GPT-4生成的响应。这种多源数据的结合使得数据集在丹麦语指令微调任务中具有广泛的应用价值。此外，数据集的构建过程注重效率，通过分层和优化翻译策略，显著减少了资源消耗。

使用方法

使用skolegpt-instruct数据集时，用户需按照四个步骤依次执行：采样、过滤、分层和翻译。首先，通过运行`sample_dataset.py`脚本从OpenOrca数据集中抽取子集。接着，使用`filter_dataset.py`脚本对数据进行过滤和清洗。然后，通过`stratify_dataset.py`脚本对数据进行分层处理，确保数据来源的均衡性。最后，运行`translate_dataset.py`脚本利用DeepL服务将数据集翻译为丹麦语。用户需确保已安装Poetry以管理依赖，并拥有DeepL账户以完成翻译步骤。数据集可直接从Hugging Face平台获取，便于集成到各类语言模型微调任务中。

背景与挑战

背景概述

SkoleGPT-Instruct数据集是一个专门用于丹麦语指令微调的开源数据集，旨在提升大型语言模型（LLM）在丹麦语环境中的表现。该数据集基于OpenOrca指令数据集的高质量子集进行翻译和优化，是SkoleGPT项目的重要组成部分。SkoleGPT项目由丹麦的研究机构发起，致力于推动丹麦语自然语言处理技术的发展。该数据集的创建时间为2023年，主要研究人员和机构包括Kobenhavns Professionshojskole（哥本哈根职业学院）等。其核心研究问题在于如何通过高质量的指令数据集，提升LLM在多语言环境中的适应性和性能。该数据集对丹麦语自然语言处理领域具有重要影响力，为相关研究提供了宝贵的数据资源。

当前挑战

SkoleGPT-Instruct数据集在构建过程中面临多重挑战。首先，数据采样和过滤过程需要确保数据的高质量和多样性，同时避免重复和低质量指令的干扰。其次，翻译环节依赖于DeepL服务，这不仅增加了技术复杂性，还受到字符使用限制的约束。此外，数据集中包含的指令需要经过严格的格式化和清理，以去除不完整、多选或包含特殊字符的条目。最后，数据集的构建还需考虑指令的多样性和实用性，以确保其在微调LLM时的有效性。这些挑战共同构成了数据集构建的核心难点，同时也为未来相关研究提供了改进方向。

常用场景

经典使用场景

在丹麦语的自然语言处理研究中，skolegpt-instruct数据集被广泛用于大型语言模型的指令微调。该数据集通过对OpenOrca数据集进行采样、过滤、分层和翻译，生成了高质量的丹麦语指令数据，为丹麦语的语言模型优化提供了重要支持。

解决学术问题

skolegpt-instruct数据集解决了丹麦语自然语言处理研究中高质量指令数据稀缺的问题。通过对OpenOrca数据集的翻译和过滤，该数据集为丹麦语的语言模型训练提供了丰富的指令数据，显著提升了模型在丹麦语任务中的表现，填补了丹麦语NLP研究的空白。

衍生相关工作

skolegpt-instruct数据集衍生了一系列与丹麦语自然语言处理相关的研究工作。基于该数据集，研究者开发了多个丹麦语语言模型，如SkoleGPT项目中的模型。此外，该数据集还推动了丹麦语指令微调技术的发展，为后续的丹麦语NLP研究提供了重要的数据基础。

以上内容由遇见数据集搜集并总结生成