A Preference-based Feedback Corpus

github2024-01-11 更新2024-05-31 收录

下载链接：

https://github.com/gmftbyGMFTBY/FeedbackPreference

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了一个用于批评调整的语料库，其中包括偏好学习（如PPO或DPO（RLHF））的反馈对，旨在提高生成的反馈与人类判断之间的一致性。

We introduce a corpus designed for critique tuning, which includes feedback pairs for preference learning (such as PPO or DPO (RLHF)), aimed at enhancing the alignment between generated feedback and human judgments.

创建时间：

2023-12-29

原始信息汇总

数据集概述

数据集名称

A Preference-based Feedback Corpus

数据集目的

该数据集旨在通过提供基于偏好的反馈（批评）数据，增强开源模型的自我批评能力，以改善与人类判断的匹配度。

数据集内容

数据集包含由GPT-4生成的反馈对，这些反馈对具有显著的评分差异（2分以上），用于比较和评估反馈质量。
数据集还包括详细的评分标准和参考答案，以及由GPT-4生成的优质反馈。

数据集构建方法

使用GPT-4对Feedback-Collection数据集中的7B和13B批评调优语言模型进行推理。
收集与GPT-4评分有显著差异的反馈，并通过链式思维（Chain-of-Thought）引导GPT-4选择更优的反馈。

数据集使用场景

用于训练和评估开源模型的批评调优能力，特别是在偏好学习方面，如PPO或DPO（RLHF）。

数据集链接

数据集可在Hugging Face上获取：FeedbackPreference

引用信息

bibtex @misc{Tian_Feedback_Preference_2023, author = {Tian, Lan}, month = dec, title = {{Feedback Preference}}, url = {https://github.com/gmftbyGMFTBY/FeedbackPreference}, year = {2023} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于GPT-4生成的反馈数据，旨在提升开源模型的自评能力。首先，研究团队在Feedback-Collection语料库的训练集上推断了7B和13B的自评调优大语言模型。随后，收集了与GPT-4反馈评分差异大于2的生成反馈，这些反馈在质量上存在显著差异。最后，通过Chain-of-Thought方法，提示GPT-4选择更优的反馈，并生成相应的分析。这一过程确保了数据的高质量和可评估性。

特点

该数据集的特点在于其高质量和严格的评分标准。它不仅提供了GPT-4生成的高质量反馈，还包含了参考回答和详细的评分准则。这些元素共同构成了一个全面的评估框架，使得用户能够更准确地评估反馈的质量。此外，数据集还包含了通过Chain-of-Thought方法生成的元反馈，进一步增强了数据的深度和实用性。

使用方法

该数据集的使用方法相对直观。用户可以通过Hugging Face平台访问数据集，并利用其中的反馈对进行偏好学习。数据集中的每对反馈都附有详细的评分准则和参考回答，用户可以根据这些信息评估反馈的质量。此外，数据集还提供了通过Chain-of-Thought方法生成的元反馈，用户可以参考这些分析来进一步理解反馈的优劣。这一数据集特别适用于训练和评估自评调优的开源模型，以提升其与人类判断的对齐能力。

背景与挑战

背景概述

随着大规模语言模型在自我批判能力方面的研究日益深入，开源模型与专有模型之间的差距逐渐显现。为了弥合这一差距，北京理工大学的Tian Lan等人于2023年推出了基于偏好的反馈语料库（A Preference-based Feedback Corpus）。该数据集旨在通过提供高质量与低质量反馈的对比，提升开源模型在自我批判任务中的表现。其核心研究问题聚焦于如何通过偏好学习（如PPO或DPO）优化模型生成的反馈，使其更符合人类判断。该数据集的构建基于GPT-4生成的反馈，并结合严格的评分标准和参考响应，为开源模型的批判能力评估提供了重要支持。这一工作不仅填补了现有批判调优数据集的空白，也为相关领域的研究提供了新的方向。

当前挑战

在构建基于偏好的反馈语料库过程中，研究团队面临多重挑战。首先，现有开源批判调优数据集如UltraFeedback和Auto-J缺乏评分标准和参考响应，难以评估反馈质量。为解决这一问题，团队采用了严格的评分准则和GPT-4生成的高质量反馈作为基准。其次，数据集的构建需要从大量反馈中筛选出评分差异显著的样本，并利用GPT-4进行偏好标注，这一过程对数据处理和标注精度提出了较高要求。此外，如何确保数据集能够有效提升开源模型的批判能力，并与其他奖励模型和LLM进行兼容性测试，也是未来研究需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，A Preference-based Feedback Corpus数据集被广泛应用于提升开源语言模型的自我批判能力。通过提供高质量和低质量的反馈对，该数据集为模型训练提供了丰富的对比数据，帮助模型更好地理解人类偏好和相关性。特别是在使用强化学习从人类反馈（RLHF）技术时，该数据集为模型优化提供了关键的支持。

解决学术问题

该数据集有效解决了开源语言模型在自我批判能力上的不足问题。通过提供基于GPT-4生成的偏好反馈数据，填补了现有开源模型与人类偏好之间的差距。这不仅提升了模型生成反馈的质量，还为研究者提供了一个标准化的评估框架，使得模型批判能力的提升更加有据可依。

衍生相关工作

基于A Preference-based Feedback Corpus数据集，研究者们开发了多个经典的开源模型和工具。例如，UltraCM-13B和CritiqueLLM等模型通过利用该数据集进行训练，显著提升了其自我批判能力。此外，该数据集还推动了RLHF技术的发展，为后续的模型优化和研究提供了重要的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集