five

BramVanroy/ultra_feedback_dutch_cleaned

收藏
Hugging Face2024-05-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/ultra_feedback_dutch_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过清理的荷兰语数据集,专注于GEITje 7B Ultra和GPT-4-Turbo两个模型。数据集包含了对模型回复的荷兰语质量、有用性和简洁性的评估。根据不同的调整目的,数据集被划分为多个子集,每个子集都有特定的质量标准。

这是一个经过清理的荷兰语数据集,专注于GEITje 7B Ultra和GPT-4-Turbo两个模型。数据集包含了对模型回复的荷兰语质量、有用性和简洁性的评估。根据不同的调整目的,数据集被划分为多个子集,每个子集都有特定的质量标准。
提供机构:
BramVanroy
原始信息汇总

数据集概述

数据集名称

  • Ultra Feedback Dutch Cleaned

语言

  • 荷兰语 (nl)

数据集配置

  1. default

    • 特征:
      • prompt: 字符串
      • GEITje-7B-ultra: 字符串
      • gpt-4-turbo: 字符串
      • rating_conciseness_GEITje-7B-ultra: 整数
      • rating_conciseness_gpt-4-turbo: 整数
      • rating_dutchness_GEITje-7B-ultra: 整数
      • rating_dutchness_gpt-4-turbo: 整数
      • rating_helpfulness_GEITje-7B-ultra: 整数
      • rating_helpfulness_gpt-4-turbo: 整数
      • rating_avg_GEITje-7B-ultra: 浮点数
      • rating_avg_gpt-4-turbo: 浮点数
    • 分割:
      • train: 50820个例子,238549993字节
    • 下载大小: 136381277字节
    • 数据集大小: 238549993字节
  2. dpo_all

    • 特征:
      • prompt: 字符串
      • chosen: 列表,包含content和role,均为字符串
      • rejected: 列表,包含content和role,均为字符串
    • 分割:
      • train_prefs: 48279个例子,276826879.25字节
      • test_prefs: 2541个例子,14569835.75字节
    • 下载大小: 165576369字节
    • 数据集大小: 291396715字节
  3. dpo_hq

    • 特征:
      • prompt: 字符串
      • chosen: 列表,包含content和role,均为字符串
      • rejected: 列表,包含content和role,均为字符串
    • 分割:
      • train_prefs: 9186个例子,55192382.49245088字节
      • test_prefs: 484个例子,2908024.507549121字节
    • 下载大小: 33267119字节
    • 数据集大小: 58100407字节
  4. sft_gpt4_all

    • 特征:
      • prompt: 字符串
      • messages: 列表,包含content和role,均为字符串
    • 分割:
      • train_sft: 48279个例子,145093644.4字节
      • test_sft: 2541个例子,7636507.6字节
    • 下载大小: 87206558字节
    • 数据集大小: 152730152字节
  5. sft_gpt4_hq

    • 特征:
      • prompt: 字符串
      • messages: 列表,包含content和role,均为字符串
    • 分割:
      • train_sft: 19726个例子,61513259.16137732字节
      • test_sft: 1039个例子,3240001.8386226823字节
    • 下载大小: 37187813字节
    • 数据集大小: 64753261字节

许可证

  • Apache-2.0

任务类别

  • text2text-generation
  • text-generation

标签

  • conversational
  • preference-tuning

数据集描述

  • 此数据集是基于Argilla对原始Ultra Feedback数据集的清理版本,仅包含GEITje 7B Ultra和GPT-4-Turbo模型。
  • 数据集经过多重过滤和去重处理,确保数据质量。
  • 包含多个配置,适用于不同的训练和测试需求。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作