five

A Preference-based Feedback Corpus

收藏
github2024-01-11 更新2024-05-31 收录
下载链接:
https://github.com/gmftbyGMFTBY/FeedbackPreference
下载链接
链接失效反馈
官方服务:
资源简介:
我们介绍了一个用于批评调整的语料库,其中包括偏好学习(如PPO或DPO(RLHF))的反馈对,旨在提高生成的反馈与人类判断之间的一致性。

We introduce a corpus designed for critique tuning, which includes feedback pairs for preference learning (such as PPO or DPO (RLHF)), aimed at enhancing the alignment between generated feedback and human judgments.
创建时间:
2023-12-29
原始信息汇总

数据集概述

数据集名称

  • A Preference-based Feedback Corpus

数据集目的

  • 该数据集旨在通过提供基于偏好的反馈(批评)数据,增强开源模型的自我批评能力,以改善与人类判断的匹配度。

数据集内容

  • 数据集包含由GPT-4生成的反馈对,这些反馈对具有显著的评分差异(2分以上),用于比较和评估反馈质量。
  • 数据集还包括详细的评分标准和参考答案,以及由GPT-4生成的优质反馈。

数据集构建方法

  • 使用GPT-4对Feedback-Collection数据集中的7B和13B批评调优语言模型进行推理。
  • 收集与GPT-4评分有显著差异的反馈,并通过链式思维(Chain-of-Thought)引导GPT-4选择更优的反馈。

数据集使用场景

  • 用于训练和评估开源模型的批评调优能力,特别是在偏好学习方面,如PPO或DPO(RLHF)。

数据集链接

引用信息

bibtex @misc{Tian_Feedback_Preference_2023, author = {Tian, Lan}, month = dec, title = {{Feedback Preference}}, url = {https://github.com/gmftbyGMFTBY/FeedbackPreference}, year = {2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于GPT-4生成的反馈数据,旨在提升开源模型的自评能力。首先,研究团队在Feedback-Collection语料库的训练集上推断了7B和13B的自评调优大语言模型。随后,收集了与GPT-4反馈评分差异大于2的生成反馈,这些反馈在质量上存在显著差异。最后,通过Chain-of-Thought方法,提示GPT-4选择更优的反馈,并生成相应的分析。这一过程确保了数据的高质量和可评估性。
特点
该数据集的特点在于其高质量和严格的评分标准。它不仅提供了GPT-4生成的高质量反馈,还包含了参考回答和详细的评分准则。这些元素共同构成了一个全面的评估框架,使得用户能够更准确地评估反馈的质量。此外,数据集还包含了通过Chain-of-Thought方法生成的元反馈,进一步增强了数据的深度和实用性。
使用方法
该数据集的使用方法相对直观。用户可以通过Hugging Face平台访问数据集,并利用其中的反馈对进行偏好学习。数据集中的每对反馈都附有详细的评分准则和参考回答,用户可以根据这些信息评估反馈的质量。此外,数据集还提供了通过Chain-of-Thought方法生成的元反馈,用户可以参考这些分析来进一步理解反馈的优劣。这一数据集特别适用于训练和评估自评调优的开源模型,以提升其与人类判断的对齐能力。
背景与挑战
背景概述
随着大规模语言模型在自我批判能力方面的研究日益深入,开源模型与专有模型之间的差距逐渐显现。为了弥合这一差距,北京理工大学的Tian Lan等人于2023年推出了基于偏好的反馈语料库(A Preference-based Feedback Corpus)。该数据集旨在通过提供高质量与低质量反馈的对比,提升开源模型在自我批判任务中的表现。其核心研究问题聚焦于如何通过偏好学习(如PPO或DPO)优化模型生成的反馈,使其更符合人类判断。该数据集的构建基于GPT-4生成的反馈,并结合严格的评分标准和参考响应,为开源模型的批判能力评估提供了重要支持。这一工作不仅填补了现有批判调优数据集的空白,也为相关领域的研究提供了新的方向。
当前挑战
在构建基于偏好的反馈语料库过程中,研究团队面临多重挑战。首先,现有开源批判调优数据集如UltraFeedback和Auto-J缺乏评分标准和参考响应,难以评估反馈质量。为解决这一问题,团队采用了严格的评分准则和GPT-4生成的高质量反馈作为基准。其次,数据集的构建需要从大量反馈中筛选出评分差异显著的样本,并利用GPT-4进行偏好标注,这一过程对数据处理和标注精度提出了较高要求。此外,如何确保数据集能够有效提升开源模型的批判能力,并与其他奖励模型和LLM进行兼容性测试,也是未来研究需要解决的关键问题。
常用场景
经典使用场景
在自然语言处理领域,A Preference-based Feedback Corpus数据集被广泛应用于提升开源语言模型的自我批判能力。通过提供高质量和低质量的反馈对,该数据集为模型训练提供了丰富的对比数据,帮助模型更好地理解人类偏好和相关性。特别是在使用强化学习从人类反馈(RLHF)技术时,该数据集为模型优化提供了关键的支持。
解决学术问题
该数据集有效解决了开源语言模型在自我批判能力上的不足问题。通过提供基于GPT-4生成的偏好反馈数据,填补了现有开源模型与人类偏好之间的差距。这不仅提升了模型生成反馈的质量,还为研究者提供了一个标准化的评估框架,使得模型批判能力的提升更加有据可依。
衍生相关工作
基于A Preference-based Feedback Corpus数据集,研究者们开发了多个经典的开源模型和工具。例如,UltraCM-13B和CritiqueLLM等模型通过利用该数据集进行训练,显著提升了其自我批判能力。此外,该数据集还推动了RLHF技术的发展,为后续的模型优化和研究提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作