five

BramVanroy/belebele_dutch

收藏
Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/belebele_dutch
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个处理过的Facebook Belebele荷兰语数据集版本,数据格式适用于监督微调(SFT)和偏好调优(如DPO)。数据集包含两个配置:sft和prefs,分别用于监督微调和偏好调优。sft配置包含prompt、prompt_id和messages列,而prefs配置包含prompt、prompt_id、chosen和rejected列。数据集的处理方式受到bagel项目的启发,但在Flores段落和问题之间添加了两个新行。对于prefs配置,添加了一个随机的错误答案作为被拒绝的答案。

这是一个处理过的Facebook Belebele荷兰语数据集版本,数据格式适用于监督微调(SFT)和偏好调优(如DPO)。数据集包含两个配置:sft和prefs,分别用于监督微调和偏好调优。sft配置包含prompt、prompt_id和messages列,而prefs配置包含prompt、prompt_id、chosen和rejected列。数据集的处理方式受到bagel项目的启发,但在Flores段落和问题之间添加了两个新行。对于prefs配置,添加了一个随机的错误答案作为被拒绝的答案。
提供机构:
BramVanroy
原始信息汇总

数据集概述

配置名称:prefs

  • 特征信息:
    • prompt: 字符串类型
    • prompt_id: 字符串类型
    • chosen: 列表类型,包含
      • content: 字符串类型
      • role: 字符串类型
    • rejected: 列表类型,包含
      • content: 字符串类型
      • role: 字符串类型
  • 数据分割:
    • train_prefs: 800个示例,占用1621562字节
    • test_prefs: 100个示例,占用204570字节
  • 下载大小: 1125677字节
  • 数据集大小: 1826132字节

配置名称:sft

  • 特征信息:
    • prompt: 字符串类型
    • prompt_id: 字符串类型
    • messages: 列表类型,包含
      • content: 字符串类型
      • role: 字符串类型
  • 数据分割:
    • train_sft: 800个示例,占用1083908字节
    • test_sft: 100个示例,占用136751字节
  • 下载大小: 767086字节
  • 数据集大小: 1220659字节

数据文件路径

  • prefs配置:
    • train_prefs: prefs/train_prefs-*
    • test_prefs: prefs/test_prefs-*
  • sft配置:
    • train_sft: sft/train_sft-*
    • test_sft: sft/test_sft-*

许可证

  • cc-by-sa-4.0

任务类别

  • text-generation
  • text2text-generation

语言

  • nl

标签

  • conversational

数据集名称

  • Belebele Dutch
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作