five

BramVanroy/orca_dpo_pairs_dutch_cleaned

收藏
Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/orca_dpo_pairs_dutch_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
Orca DPO Pairs Dutch Cleaned是一个用于荷兰语语言模型偏好调优的数据集。该数据集是BramVanroy/orca_dpo_pairs_dutch的新版本,经过去重和过滤,并添加了GEITje 7B Ultra的响应。数据集包含两个主要配置:一个用于监督微调(SFT),包含GPT4 Turbo的响应;另一个用于偏好调优(DPO),包含GEITje 7B Ultra(拒绝)和GPT 4 Turbo(选择)的响应。数据集的结构包括默认配置、SFT配置和DPO配置,每个配置都有相应的训练和测试分割。数据集的创建过程包括翻译和生成响应,并进行了严格的内容过滤,如去除非拉丁字符、AI模型相关的响应等。数据集的使用需注意潜在的偏见和翻译问题。

Orca DPO Pairs Dutch Cleaned是一个用于荷兰语语言模型偏好调优的数据集。该数据集是BramVanroy/orca_dpo_pairs_dutch的新版本,经过去重和过滤,并添加了GEITje 7B Ultra的响应。数据集包含两个主要配置:一个用于监督微调(SFT),包含GPT4 Turbo的响应;另一个用于偏好调优(DPO),包含GEITje 7B Ultra(拒绝)和GPT 4 Turbo(选择)的响应。数据集的结构包括默认配置、SFT配置和DPO配置,每个配置都有相应的训练和测试分割。数据集的创建过程包括翻译和生成响应,并进行了严格的内容过滤,如去除非拉丁字符、AI模型相关的响应等。数据集的使用需注意潜在的偏见和翻译问题。
提供机构:
BramVanroy
原始信息汇总

数据集概述:Orca DPO Pairs Dutch Cleaned

数据集描述

  • 语言:荷兰语(nl)
  • 许可:Apache-2.0
  • 大小分类:1K<n<10K
  • 任务分类:文本生成
  • 美观名称:Orca DPO Pairs Dutch Cleaned

数据集结构

配置信息

  • default

    • 特征:包括多个字段,如geitje-7b-chat, gpt-4-turbo等,数据类型主要为stringfloat64
    • 分割:训练集,包含10519个示例,数据大小为52416545字节。
  • dpo_all

    • 特征:包括prompt, chosen, rejected等,其中chosenrejected是列表类型,包含contentrole字段。
    • 分割:训练偏好集和测试偏好集,分别包含9467和1052个示例,总数据大小为51718778字节。
  • sft_gpt4_all

    • 特征:包括promptmessages,其中messages是列表类型,包含contentrole字段。
    • 分割:训练SFT集和测试SFT集,分别包含9467和1052个示例,总数据大小为26828167字节。

数据文件

  • default:训练数据位于data/train-*
  • dpo_all:训练偏好数据位于dpo_all/train_prefs-*,测试偏好数据位于dpo_all/test_prefs-*
  • sft_gpt4_all:训练SFT数据位于sft_gpt4_all/train_sft-*,测试SFT数据位于sft_gpt4_all/test_sft-*

数据集创建

  • 数据过滤:进行了多轮自动和手动过滤,包括去除非拉丁字符、特定词汇等。
  • 源数据:初始数据来自Intel/orca_dpo_pairs,进一步处理自Open-Orca/OpenOrca

使用考虑

  • 偏见讨论:数据集可能包含未识别的偏见,使用时应谨慎。
  • 许可证信息:数据集遵循Apache-2.0许可证,可自由使用。

贡献者

  • 感谢:Michiel Buisman of UWV提供了Azure API的访问权限,支持了数据集的创建。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作