RAG-RewardBench|检索增强生成数据集|奖励模型数据集

arXiv2024-12-18 更新2024-12-20 收录

检索增强生成

奖励模型

下载链接：

https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/

下载链接

链接失效反馈

资源简介：

RAG-RewardBench是由中国科学院自动化研究所复杂系统认知与决策智能实验室创建的，用于评估检索增强生成（RAG）场景中奖励模型的基准数据集。该数据集包含1485个高质量的偏好对，涵盖了18个子集、6种检索器和24种RAG模型，旨在提高数据源的多样性。数据集的创建过程包括设计四个关键的RAG特定场景，并通过LLM-as-a-judge方法提高偏好标注的效率和有效性。RAG-RewardBench主要应用于检索增强语言模型的偏好对齐，旨在解决现有模型在偏好对齐方面的不足，推动模型向偏好对齐训练的转变。

提供机构：

中国科学院自动化研究所复杂系统认知与决策智能实验室

创建时间：

2024-12-18

AI搜集汇总

数据集介绍

构建方式

RAG-RewardBench 数据集的构建基于四个关键且具有挑战性的 RAG 特定场景，包括多跳推理、细粒度引用、适当放弃和冲突鲁棒性。为了确保数据源的多样性，研究团队整合了18个子数据集、6种检索器和24种检索增强语言模型（RALMs）。此外，采用了一种名为 LLM-as-a-judge 的方法，通过选择4种最先进的商业模型来评估生成的响应，从而提高了偏好标注的效率和准确性，最终生成了1485个高质量的偏好对。

特点

RAG-RewardBench 数据集的显著特点在于其针对 RAG 场景设计的四个特定评估维度，这些维度超越了传统的有用性和无害性评估，涵盖了多跳推理、细粒度引用、适当放弃和冲突鲁棒性等复杂场景。此外，数据集通过多样化的数据源和多模型生成响应，确保了评估的全面性和公正性。LLM-as-a-judge 方法的应用进一步增强了偏好标注的准确性和一致性，使其与人工标注的相关性达到0.84的皮尔逊相关系数。

使用方法

RAG-RewardBench 数据集主要用于评估奖励模型在 RAG 场景中的表现，特别适用于偏好对齐任务。研究者可以通过该数据集对不同类型的奖励模型（如判别式、生成式和隐式模型）进行系统评估，以揭示其在多跳推理、细粒度引用等复杂场景中的表现。此外，数据集还可用于训练和优化 RALMs，使其更好地与人类偏好对齐，特别是在处理长上下文和复杂推理任务时。

背景与挑战

背景概述

RAG-RewardBench是由中国科学院自动化研究所复杂系统认知与决策重点实验室的研究团队开发的首个用于评估检索增强生成（RAG）场景中奖励模型（RM）的基准数据集。该数据集由朱然金等人于2024年提出，旨在解决现有检索增强语言模型（RALM）在人类偏好对齐方面的不足。RAG-RewardBench通过设计多跳推理、细粒度引用、适当拒绝和冲突鲁棒性等四个关键且具有挑战性的RAG特定场景，结合18个子集、6种检索器和24种RALM模型，构建了一个多样化的数据源，并通过LLM-as-a-judge方法提高了偏好标注的效率和效果。该数据集的提出对推动RALM与人类偏好对齐的研究具有重要意义。

当前挑战

RAG-RewardBench面临的主要挑战包括：1）设计适合RAG场景的评估场景，如多跳推理、细粒度引用等，这些场景对奖励模型的性能提出了更高的要求；2）构建多样化的数据源，避免单一数据源带来的偏差；3）处理RAG中长上下文提示的挑战，确保偏好标注的准确性和一致性。此外，现有奖励模型在RAG场景中的表现普遍不佳，尤其是在多跳推理和细粒度引用等特定场景下，性能显著下降，表明现有模型难以捕捉到细微的错误，亟需专门针对RALM的奖励模型。

常用场景

经典使用场景

RAG-RewardBench 数据集的经典使用场景主要集中在评估检索增强生成（RAG）模型中的奖励模型（Reward Models, RMs）。该数据集设计了四个关键且具有挑战性的 RAG 特定场景，包括多跳推理、细粒度引用、适当放弃和冲突鲁棒性，用于评估 RMs 在这些场景中的表现。通过这些场景，研究者可以系统地评估 RMs 在处理复杂推理、精确引用、信息不足时的决策以及处理冲突信息时的鲁棒性。

解决学术问题

RAG-RewardBench 数据集解决了现有检索增强语言模型（RALMs）在人类偏好对齐方面的不足问题。传统的 RALMs 训练方法往往忽视了与人类偏好的有效对齐，导致模型在生成响应时可能出现不忠实或有害的内容。该数据集通过引入奖励模型，帮助模型在生成过程中更好地捕捉人类偏好，从而提升模型的实用性和可靠性，推动了 RALMs 在偏好对齐方面的研究进展。

衍生相关工作

RAG-RewardBench 数据集的提出催生了一系列相关研究工作。首先，许多研究者基于该数据集开发了新的奖励模型，旨在提升 RALMs 在偏好对齐方面的表现。其次，该数据集推动了对 RAG 场景下多跳推理、细粒度引用等复杂任务的研究，促进了相关算法的改进。此外，基于该数据集的研究还扩展到了多语言场景和跨模态生成任务，进一步丰富了奖励模型评估的维度。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。