BramVanroy/ultra_feedback_dutch_cleaned

Name: BramVanroy/ultra_feedback_dutch_cleaned
Creator: BramVanroy
Published: 2024-05-13 13:11:08
License: 暂无描述

Hugging Face2024-05-13 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/BramVanroy/ultra_feedback_dutch_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过清理的荷兰语数据集，专注于GEITje 7B Ultra和GPT-4-Turbo两个模型。数据集包含了对模型回复的荷兰语质量、有用性和简洁性的评估。根据不同的调整目的，数据集被划分为多个子集，每个子集都有特定的质量标准。

提供机构：

BramVanroy

原始信息汇总

数据集概述

数据集名称

Ultra Feedback Dutch Cleaned

语言

荷兰语 (nl)

数据集配置

default
- 特征:
  - prompt: 字符串
  - GEITje-7B-ultra: 字符串
  - gpt-4-turbo: 字符串
  - rating_conciseness_GEITje-7B-ultra: 整数
  - rating_conciseness_gpt-4-turbo: 整数
  - rating_dutchness_GEITje-7B-ultra: 整数
  - rating_dutchness_gpt-4-turbo: 整数
  - rating_helpfulness_GEITje-7B-ultra: 整数
  - rating_helpfulness_gpt-4-turbo: 整数
  - rating_avg_GEITje-7B-ultra: 浮点数
  - rating_avg_gpt-4-turbo: 浮点数
- 分割:
  - train: 50820个例子，238549993字节
- 下载大小: 136381277字节
- 数据集大小: 238549993字节
dpo_all
- 特征:
  - prompt: 字符串
  - chosen: 列表，包含content和role，均为字符串
  - rejected: 列表，包含content和role，均为字符串
- 分割:
  - train_prefs: 48279个例子，276826879.25字节
  - test_prefs: 2541个例子，14569835.75字节
- 下载大小: 165576369字节
- 数据集大小: 291396715字节
dpo_hq
- 特征:
  - prompt: 字符串
  - chosen: 列表，包含content和role，均为字符串
  - rejected: 列表，包含content和role，均为字符串
- 分割:
  - train_prefs: 9186个例子，55192382.49245088字节
  - test_prefs: 484个例子，2908024.507549121字节
- 下载大小: 33267119字节
- 数据集大小: 58100407字节
sft_gpt4_all
- 特征:
  - prompt: 字符串
  - messages: 列表，包含content和role，均为字符串
- 分割:
  - train_sft: 48279个例子，145093644.4字节
  - test_sft: 2541个例子，7636507.6字节
- 下载大小: 87206558字节
- 数据集大小: 152730152字节
sft_gpt4_hq
- 特征:
  - prompt: 字符串
  - messages: 列表，包含content和role，均为字符串
- 分割:
  - train_sft: 19726个例子，61513259.16137732字节
  - test_sft: 1039个例子，3240001.8386226823字节
- 下载大小: 37187813字节
- 数据集大小: 64753261字节

许可证

Apache-2.0

任务类别

text2text-generation
text-generation

数据集描述

此数据集是基于Argilla对原始Ultra Feedback数据集的清理版本，仅包含GEITje 7B Ultra和GPT-4-Turbo模型。
数据集经过多重过滤和去重处理，确保数据质量。
包含多个配置，适用于不同的训练和测试需求。

5,000+

优质数据集

54 个

任务类型

进入经典数据集