BramVanroy/ultra_feedback_dutch_cleaned
收藏Hugging Face2024-05-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/ultra_feedback_dutch_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
这是一个经过清理的荷兰语数据集,专注于GEITje 7B Ultra和GPT-4-Turbo两个模型。数据集包含了对模型回复的荷兰语质量、有用性和简洁性的评估。根据不同的调整目的,数据集被划分为多个子集,每个子集都有特定的质量标准。
这是一个经过清理的荷兰语数据集,专注于GEITje 7B Ultra和GPT-4-Turbo两个模型。数据集包含了对模型回复的荷兰语质量、有用性和简洁性的评估。根据不同的调整目的,数据集被划分为多个子集,每个子集都有特定的质量标准。
提供机构:
BramVanroy
原始信息汇总
数据集概述
数据集名称
- Ultra Feedback Dutch Cleaned
语言
- 荷兰语 (nl)
数据集配置
-
default
- 特征:
- prompt: 字符串
- GEITje-7B-ultra: 字符串
- gpt-4-turbo: 字符串
- rating_conciseness_GEITje-7B-ultra: 整数
- rating_conciseness_gpt-4-turbo: 整数
- rating_dutchness_GEITje-7B-ultra: 整数
- rating_dutchness_gpt-4-turbo: 整数
- rating_helpfulness_GEITje-7B-ultra: 整数
- rating_helpfulness_gpt-4-turbo: 整数
- rating_avg_GEITje-7B-ultra: 浮点数
- rating_avg_gpt-4-turbo: 浮点数
- 分割:
- train: 50820个例子,238549993字节
- 下载大小: 136381277字节
- 数据集大小: 238549993字节
- 特征:
-
dpo_all
- 特征:
- prompt: 字符串
- chosen: 列表,包含content和role,均为字符串
- rejected: 列表,包含content和role,均为字符串
- 分割:
- train_prefs: 48279个例子,276826879.25字节
- test_prefs: 2541个例子,14569835.75字节
- 下载大小: 165576369字节
- 数据集大小: 291396715字节
- 特征:
-
dpo_hq
- 特征:
- prompt: 字符串
- chosen: 列表,包含content和role,均为字符串
- rejected: 列表,包含content和role,均为字符串
- 分割:
- train_prefs: 9186个例子,55192382.49245088字节
- test_prefs: 484个例子,2908024.507549121字节
- 下载大小: 33267119字节
- 数据集大小: 58100407字节
- 特征:
-
sft_gpt4_all
- 特征:
- prompt: 字符串
- messages: 列表,包含content和role,均为字符串
- 分割:
- train_sft: 48279个例子,145093644.4字节
- test_sft: 2541个例子,7636507.6字节
- 下载大小: 87206558字节
- 数据集大小: 152730152字节
- 特征:
-
sft_gpt4_hq
- 特征:
- prompt: 字符串
- messages: 列表,包含content和role,均为字符串
- 分割:
- train_sft: 19726个例子,61513259.16137732字节
- test_sft: 1039个例子,3240001.8386226823字节
- 下载大小: 37187813字节
- 数据集大小: 64753261字节
- 特征:
许可证
- Apache-2.0
任务类别
- text2text-generation
- text-generation
标签
- conversational
- preference-tuning
数据集描述
- 此数据集是基于Argilla对原始Ultra Feedback数据集的清理版本,仅包含GEITje 7B Ultra和GPT-4-Turbo模型。
- 数据集经过多重过滤和去重处理,确保数据质量。
- 包含多个配置,适用于不同的训练和测试需求。



