BramVanroy/belebele_dutch
收藏Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/belebele_dutch
下载链接
链接失效反馈官方服务:
资源简介:
这是一个处理过的Facebook Belebele荷兰语数据集版本,数据格式适用于监督微调(SFT)和偏好调优(如DPO)。数据集包含两个配置:sft和prefs,分别用于监督微调和偏好调优。sft配置包含prompt、prompt_id和messages列,而prefs配置包含prompt、prompt_id、chosen和rejected列。数据集的处理方式受到bagel项目的启发,但在Flores段落和问题之间添加了两个新行。对于prefs配置,添加了一个随机的错误答案作为被拒绝的答案。
这是一个处理过的Facebook Belebele荷兰语数据集版本,数据格式适用于监督微调(SFT)和偏好调优(如DPO)。数据集包含两个配置:sft和prefs,分别用于监督微调和偏好调优。sft配置包含prompt、prompt_id和messages列,而prefs配置包含prompt、prompt_id、chosen和rejected列。数据集的处理方式受到bagel项目的启发,但在Flores段落和问题之间添加了两个新行。对于prefs配置,添加了一个随机的错误答案作为被拒绝的答案。
提供机构:
BramVanroy
原始信息汇总
数据集概述
配置名称:prefs
- 特征信息:
- prompt: 字符串类型
- prompt_id: 字符串类型
- chosen: 列表类型,包含
- content: 字符串类型
- role: 字符串类型
- rejected: 列表类型,包含
- content: 字符串类型
- role: 字符串类型
- 数据分割:
- train_prefs: 800个示例,占用1621562字节
- test_prefs: 100个示例,占用204570字节
- 下载大小: 1125677字节
- 数据集大小: 1826132字节
配置名称:sft
- 特征信息:
- prompt: 字符串类型
- prompt_id: 字符串类型
- messages: 列表类型,包含
- content: 字符串类型
- role: 字符串类型
- 数据分割:
- train_sft: 800个示例,占用1083908字节
- test_sft: 100个示例,占用136751字节
- 下载大小: 767086字节
- 数据集大小: 1220659字节
数据文件路径
- prefs配置:
- train_prefs: prefs/train_prefs-*
- test_prefs: prefs/test_prefs-*
- sft配置:
- train_sft: sft/train_sft-*
- test_sft: sft/test_sft-*
许可证
- cc-by-sa-4.0
任务类别
- text-generation
- text2text-generation
语言
- nl
标签
- conversational
数据集名称
- Belebele Dutch



