five

argilla/ultrafeedback-curated

收藏
Hugging Face2023-12-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/ultrafeedback-curated
下载链接
链接失效反馈
官方服务:
资源简介:
UltraFeedback Curated数据集是Argilla对UltraFeedback数据集进行整理后的版本,主要修正了原始数据集中评分与响应质量不匹配的问题。通过使用distilabel和gpt-4对数据进行了重新评分和标注,生成了一个新的数据集版本。该数据集包含多个特征,如source、instruction、models、completions等,并且对部分记录的overall_score进行了更新。数据集处理过程包括筛选出评分最高的记录、使用gpt-4进行重新评分和标注,并最终更新了1968条记录的overall_score。

UltraFeedback Curated数据集是Argilla对UltraFeedback数据集进行整理后的版本,主要修正了原始数据集中评分与响应质量不匹配的问题。通过使用distilabel和gpt-4对数据进行了重新评分和标注,生成了一个新的数据集版本。该数据集包含多个特征,如source、instruction、models、completions等,并且对部分记录的overall_score进行了更新。数据集处理过程包括筛选出评分最高的记录、使用gpt-4进行重新评分和标注,并最终更新了1968条记录的overall_score。
提供机构:
argilla
原始信息汇总

UltraFeedback Curated 数据集概述

数据集基本信息

  • 语言: 英语
  • 许可证: MIT
  • 大小类别: 10K < n < 100K
  • 任务类别: 文本生成
  • 美观名称: UltraFeedback Curated

数据集结构

  • 特征:
    • source: 字符串
    • instruction: 字符串
    • models: 字符串序列
    • completions: 列表
      • annotations: 结构体
        • helpfulness: 结构体
          • Rating: 字符串
          • Rationale: 字符串
          • Rationale For Rating: 字符串
          • Type: 字符串序列
        • honesty: 结构体
          • Rating: 字符串
          • Rationale: 字符串
        • instruction_following: 结构体
          • Rating: 字符串
          • Rationale: 字符串
        • truthfulness: 结构体
          • Rating: 字符串
          • Rationale: 字符串
          • Rationale For Rating: 字符串
          • Type: 字符串序列
      • critique: 字符串
      • custom_system_prompt: 字符串
      • model: 字符串
      • overall_score: 浮点数 (float64)
      • principle: 字符串
      • response: 字符串
    • correct_answers: 字符串序列
    • incorrect_answers: 字符串序列
    • updated: 结构体
      • completion_idx: 整数 (int64)
      • distilabel_rationale: 字符串

数据集分割

  • 训练集:
    • 文件大小: 843221341 字节
    • 样本数量: 63967

数据集大小

  • 下载大小: 321698501 字节
  • 数据集大小: 843221341 字节

配置

  • 默认配置:
    • 数据文件:
      • 分割: 训练集
      • 路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量的数据集对于模型训练至关重要。UltraFeedback Curated数据集的构建源于对原始UltraFeedback数据集中评分异常的识别与修正。该过程首先从argilla/ultrafeedback-binarized-curation数据集中筛选出总体评分为10的记录,这些记录被识别为存在潜在问题。随后,利用distilabel框架结合GPT-4模型,对筛选出的指令与模型响应进行指令遵循任务的重新评估,生成新的评分与原理分析。经过人工检查,将那些实际评分应为1、2或3的响应从高分中移除,最终完成了对1968条记录的修正,约占数据总量的3%,并新增了更新记录列以追踪修改细节。
特点
该数据集的核心特点在于其经过精心校准的评分体系。相较于原始版本,UltraFeedback Curated针对已识别的评分不一致问题进行了系统性修正,主要更新了被错误标记为高分的响应总体评分,并引入了新的“updated”字段,该字段详细记录了被修改完成项的索引以及由distilabel生成的修正原理。数据集结构丰富,不仅包含指令、多模型生成的完成项,还涵盖了诸如有用性、诚实性、指令遵循性和真实性等多维度的细粒度人工标注,每条完成项都附带有详细的评分、原理及批判性分析,为研究社区提供了一个更加可靠且透明的偏好数据基准。
使用方法
该数据集主要用于文本生成模型的训练与评估,特别是在基于人类反馈的强化学习场景中。研究人员可直接通过Hugging Face的datasets库加载该数据集,其使用方式与原始UltraFeedback数据集保持兼容。用户可依据“instruction”和“completions”字段进行模型响应质量的分析与比较,利用“overall_score”及各项子维度评分进行模型性能的定量评估。修正后的“updated”字段为数据可靠性提供了追溯依据。此外,数据集提供的Colab笔记本支持完整的数据处理流程复现,鼓励研究者进行深入探索、实验与二次分析,以推动开放科学的发展。
背景与挑战
背景概述
在大型语言模型(LLM)的评估与对齐研究领域,高质量的人类反馈数据对于提升模型的指令遵循能力和输出质量至关重要。由Argilla团队于2023年基于UltraFeedback数据集精心构建的UltraFeedback Curated数据集,正是这一研究方向下的重要产物。该数据集旨在通过严谨的标注流程,为模型生成响应的多维度评估(如帮助性、诚实性、指令遵循性和真实性)提供精细化、高信度的基准数据,从而推动开放领域对话系统向更可靠、更可控的方向演进。
当前挑战
该数据集致力于应对的核心挑战在于解决大语言模型输出质量评估中存在的评分不一致性与噪声问题。原始反馈数据中常出现评分与详细评论文本严重背离的现象,例如最高评分伴随高度负面评价,这直接影响了基于此类数据训练的偏好模型的可靠性。在构建过程中,主要挑战体现为从海量原始数据中精准识别并修正这些异常样本,这需要设计自动化与人工审核相结合的混合流程,并依赖如GPT-4等先进模型进行二次标注与质量校验,以确保最终数据集的内部一致性与评估有效性。
常用场景
经典使用场景
在大型语言模型对齐与偏好优化领域,UltraFeedback Curated数据集为研究者提供了经过精细校正的指令-响应对,其核心价值在于通过多维度人工标注与模型评估相结合的方式,构建高质量的反馈数据。该数据集最经典的使用场景是作为监督微调或强化学习从人类反馈中学习的训练素材,特别是在训练奖励模型或直接优化策略时,能够基于有用性、诚实性、指令遵循和真实性等多个准则对模型响应进行精准评分,从而引导模型生成更符合人类偏好的输出。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在高效对齐算法的开发上。例如,基于此类高质量校正数据,研究者提出了改进的偏好建模框架与离线强化学习算法,用于训练如Zephyr等系列模型。同时,它也促进了数据清洗与合成标注流程的方法论研究,启发了如Distilabel等工具链的优化,推动社区形成更严谨的反馈数据构建范式,为后续的指令微调与对齐研究设立了新的数据质量基准。
数据集最近研究
最新研究方向
在大型语言模型评估与对齐领域,UltraFeedback Curated数据集作为经过精细化校正的反馈资源,正推动着模型优化研究的前沿发展。该数据集通过系统化修正原始数据中的评分偏差,为模型训练提供了更可靠的偏好信号,促进了基于人类反馈的强化学习技术的进步。当前研究热点聚焦于利用此类高质量标注数据,探索多维度评估指标如帮助性、诚实性和指令遵循性的综合优化,以提升模型在复杂任务中的泛化能力和安全性。这一趋势不仅响应了业界对可解释人工智能的迫切需求,也为构建更稳健、可信的生成式系统奠定了数据基础,对推动自然语言处理技术的实际应用具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作