BramVanroy/orca_dpo_pairs_dutch_cleaned

Name: BramVanroy/orca_dpo_pairs_dutch_cleaned
Creator: BramVanroy
Published: 2024-04-24 17:54:01
License: 暂无描述

Hugging Face2024-04-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BramVanroy/orca_dpo_pairs_dutch_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

Orca DPO Pairs Dutch Cleaned是一个用于荷兰语语言模型偏好调优的数据集。该数据集是BramVanroy/orca_dpo_pairs_dutch的新版本，经过去重和过滤，并添加了GEITje 7B Ultra的响应。数据集包含两个主要配置：一个用于监督微调（SFT），包含GPT4 Turbo的响应；另一个用于偏好调优（DPO），包含GEITje 7B Ultra（拒绝）和GPT 4 Turbo（选择）的响应。数据集的结构包括默认配置、SFT配置和DPO配置，每个配置都有相应的训练和测试分割。数据集的创建过程包括翻译和生成响应，并进行了严格的内容过滤，如去除非拉丁字符、AI模型相关的响应等。数据集的使用需注意潜在的偏见和翻译问题。

提供机构：

BramVanroy

原始信息汇总

数据集概述：Orca DPO Pairs Dutch Cleaned

数据集描述

语言：荷兰语（nl）
许可：Apache-2.0
大小分类：1K<n<10K
任务分类：文本生成
美观名称：Orca DPO Pairs Dutch Cleaned

数据集结构

配置信息

default
- 特征：包括多个字段，如geitje-7b-chat, gpt-4-turbo等，数据类型主要为string和float64。
- 分割：训练集，包含10519个示例，数据大小为52416545字节。
dpo_all
- 特征：包括prompt, chosen, rejected等，其中chosen和rejected是列表类型，包含content和role字段。
- 分割：训练偏好集和测试偏好集，分别包含9467和1052个示例，总数据大小为51718778字节。
sft_gpt4_all
- 特征：包括prompt和messages，其中messages是列表类型，包含content和role字段。
- 分割：训练SFT集和测试SFT集，分别包含9467和1052个示例，总数据大小为26828167字节。

数据文件

default：训练数据位于data/train-*。
dpo_all：训练偏好数据位于dpo_all/train_prefs-*，测试偏好数据位于dpo_all/test_prefs-*。
sft_gpt4_all：训练SFT数据位于sft_gpt4_all/train_sft-*，测试SFT数据位于sft_gpt4_all/test_sft-*。

数据集创建

数据过滤：进行了多轮自动和手动过滤，包括去除非拉丁字符、特定词汇等。
源数据：初始数据来自Intel/orca_dpo_pairs，进一步处理自Open-Orca/OpenOrca。

使用考虑

偏见讨论：数据集可能包含未识别的偏见，使用时应谨慎。
许可证信息：数据集遵循Apache-2.0许可证，可自由使用。

贡献者

感谢：Michiel Buisman of UWV提供了Azure API的访问权限，支持了数据集的创建。

5,000+

优质数据集

54 个

任务类型

进入经典数据集