BramVanroy/orca_dpo_pairs_dutch_cleaned
收藏Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/orca_dpo_pairs_dutch_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
Orca DPO Pairs Dutch Cleaned是一个用于荷兰语语言模型偏好调优的数据集。该数据集是BramVanroy/orca_dpo_pairs_dutch的新版本,经过去重和过滤,并添加了GEITje 7B Ultra的响应。数据集包含两个主要配置:一个用于监督微调(SFT),包含GPT4 Turbo的响应;另一个用于偏好调优(DPO),包含GEITje 7B Ultra(拒绝)和GPT 4 Turbo(选择)的响应。数据集的结构包括默认配置、SFT配置和DPO配置,每个配置都有相应的训练和测试分割。数据集的创建过程包括翻译和生成响应,并进行了严格的内容过滤,如去除非拉丁字符、AI模型相关的响应等。数据集的使用需注意潜在的偏见和翻译问题。
Orca DPO Pairs Dutch Cleaned是一个用于荷兰语语言模型偏好调优的数据集。该数据集是BramVanroy/orca_dpo_pairs_dutch的新版本,经过去重和过滤,并添加了GEITje 7B Ultra的响应。数据集包含两个主要配置:一个用于监督微调(SFT),包含GPT4 Turbo的响应;另一个用于偏好调优(DPO),包含GEITje 7B Ultra(拒绝)和GPT 4 Turbo(选择)的响应。数据集的结构包括默认配置、SFT配置和DPO配置,每个配置都有相应的训练和测试分割。数据集的创建过程包括翻译和生成响应,并进行了严格的内容过滤,如去除非拉丁字符、AI模型相关的响应等。数据集的使用需注意潜在的偏见和翻译问题。
提供机构:
BramVanroy
原始信息汇总
数据集概述:Orca DPO Pairs Dutch Cleaned
数据集描述
- 语言:荷兰语(nl)
- 许可:Apache-2.0
- 大小分类:1K<n<10K
- 任务分类:文本生成
- 美观名称:Orca DPO Pairs Dutch Cleaned
数据集结构
配置信息
-
default
- 特征:包括多个字段,如
geitje-7b-chat,gpt-4-turbo等,数据类型主要为string和float64。 - 分割:训练集,包含10519个示例,数据大小为52416545字节。
- 特征:包括多个字段,如
-
dpo_all
- 特征:包括
prompt,chosen,rejected等,其中chosen和rejected是列表类型,包含content和role字段。 - 分割:训练偏好集和测试偏好集,分别包含9467和1052个示例,总数据大小为51718778字节。
- 特征:包括
-
sft_gpt4_all
- 特征:包括
prompt和messages,其中messages是列表类型,包含content和role字段。 - 分割:训练SFT集和测试SFT集,分别包含9467和1052个示例,总数据大小为26828167字节。
- 特征:包括
数据文件
- default:训练数据位于
data/train-*。 - dpo_all:训练偏好数据位于
dpo_all/train_prefs-*,测试偏好数据位于dpo_all/test_prefs-*。 - sft_gpt4_all:训练SFT数据位于
sft_gpt4_all/train_sft-*,测试SFT数据位于sft_gpt4_all/test_sft-*。
数据集创建
- 数据过滤:进行了多轮自动和手动过滤,包括去除非拉丁字符、特定词汇等。
- 源数据:初始数据来自Intel/orca_dpo_pairs,进一步处理自Open-Orca/OpenOrca。
使用考虑
- 偏见讨论:数据集可能包含未识别的偏见,使用时应谨慎。
- 许可证信息:数据集遵循Apache-2.0许可证,可自由使用。
贡献者
- 感谢:Michiel Buisman of UWV提供了Azure API的访问权限,支持了数据集的创建。



