Bi’anBench

Name: Bi’anBench
Creator: Ant Group
Published: 2025-02-26 23:12:59
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/OpenSPG/KAG

下载链接

链接失效反馈

官方服务：

资源简介：

Bi’anBench是一个双语的基准数据集，由Ant Group创建，旨在检测检索增强生成（RAG）中的虚构现象。该数据集涵盖了四种RAG场景：问答、总结、数据到文本和机器翻译，包含22,992个测试案例。数据集通过合成具有语义合理但事实不一致的修改来构建，支持多种语言和领域的复杂任务，用于评估模型在RAG虚构检测方面的性能。

Bi’anBench is a bilingual benchmark dataset developed by Ant Group for detecting hallucinations in Retrieval-Augmented Generation (RAG). It encompasses four RAG scenarios: question answering, summarization, data-to-text, and machine translation, and comprises 22,992 test instances in total. Constructed by synthesizing semantically plausible yet factually inconsistent modifications, this dataset supports complex tasks across diverse languages and domains, and is intended to evaluate model performance on RAG hallucination detection tasks.

提供机构：

Ant Group

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

Bi’anBench 数据集的构建旨在解决大型语言模型（LLM）在检索增强生成（RAG）任务中存在的“幻觉”问题。该数据集的构建过程分为三个关键步骤：数据收集、幻觉扰动流程和反事实问答生成流程。首先，数据集从开源数据仓库中收集了中英文两种语言的多个领域数据，包括问答、摘要、数据到文本和机器翻译等任务。其次，通过幻觉扰动流程，利用 GPT-4o 模型对原始数据进行语义合理但事实错误的修改，生成测试用例。最后，通过反事实问答生成流程，利用 GPT-4o 模型生成具有证据支持的错误答案和正确答案，用于模型评估。最终构建的 Bi’anBench 数据集包含 22,992 个测试实例，分为英文、中文和反事实问答三个子集。

特点

Bi’anBench 数据集具有以下特点：1) 双语性：数据集包含中文和英文两种语言的数据，支持多语言 RAG 幻觉检测任务。2) 多领域：数据集涵盖了多个领域，包括新闻、金融、法律、电子商务等，具有较强的泛化能力。3) 多任务：数据集支持问答、摘要、数据到文本和机器翻译等多种 RAG 任务，可进行全面的模型评估。4) 大规模：数据集包含 22,992 个测试实例，能够充分评估模型的性能。5) 高质量：通过幻觉扰动和反事实问答生成流程，数据集中的测试实例具有较高的质量，能够有效评估模型的幻觉检测能力。

使用方法

Bi’anBench 数据集的使用方法如下：1) 数据集下载：可以从 https://github.com/OpenSPG/KAG 获取 Bi’anBench 数据集。2) 数据集处理：将数据集按照任务类型进行划分，并进行数据清洗和预处理。3) 模型训练：利用 Bi’anBench 数据集训练 RAG 幻觉检测模型，可参考论文中的模型训练方法和参数设置。4) 模型评估：利用 Bi’anBench 数据集对训练好的模型进行评估，可参考论文中的评估指标和实验设置。5) 模型优化：根据评估结果对模型进行优化，以提高模型的幻觉检测能力。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型（LLM）的“幻觉”问题一直是一个挑战，即模型生成的输出与事实不符。为了解决这一问题，检索增强生成（RAG）技术被开发出来，它通过整合外部数据源来提高模型的性能。然而，RAG系统仍然可能产生缺乏根据或与提供的参考相矛盾的内容。为了评估RAG系统在幻觉检测方面的性能，Bi'an框架应运而生，它包含了一个双语的基准数据集Bi'anBench和一个轻量级的判断模型。该数据集支持在多个RAG场景下进行严格的评估，而判断模型则是从紧凑的开源LLM中进行微调的。Bi'anBench的实验结果表明，我们的14B模型在参数规模超过五倍的基线模型中表现出色，并且与最先进的闭源LLM相媲美。

当前挑战

尽管LLM-as-a-Judge方法因其简单性而被广泛用于RAG幻觉检测，但它面临着两个主要挑战：缺乏全面的评估基准和缺乏领域优化的判断模型。为了弥补这些差距，我们引入了Bi'an框架，它具有一个双语的基准数据集Bi'anBench和轻量级的判断模型。该数据集支持在多个RAG场景下进行严格的评估，而判断模型则是从紧凑的开源LLM中进行微调的。Bi'anBench的实验结果表明，我们的14B模型在参数规模超过五倍的基线模型中表现出色，并且与最先进的闭源LLM相媲美。

常用场景

经典使用场景

Bi’anBench 数据集主要用于检索增强生成（RAG）场景中的幻觉检测。该数据集支持在多个 RAG 场景下进行严格的评估，包括问答、摘要、数据到文本和机器翻译等。Bi’anBench 数据集包含 22,992 个实例，涵盖中英双语，并涵盖了多个领域，如维基、医学、电子商务、金融和法律等。该数据集为研究者提供了丰富的评估资源，有助于提高 RAG 模型的准确性和可靠性。

实际应用

Bi’anBench 数据集在实际应用场景中具有重要价值。首先，它可以用于评估和改进 RAG 模型的性能，帮助开发者构建更加准确的模型。其次，它可以用于构建轻量级的判断模型，降低 RAG 模型的运行成本。此外，Bi’anBench 数据集还可以用于研究 RAG 模型中参数知识和上下文知识之间的冲突问题，为解决这一问题提供数据支持。

衍生相关工作

Bi’anBench 数据集衍生了许多相关的经典工作。例如，基于 Bi’anBench 数据集，研究者可以开发轻量级的判断模型，用于检测 RAG 模型的幻觉。此外，Bi’anBench 数据集还可以用于研究 RAG 模型中参数知识和上下文知识之间的冲突问题，为解决这一问题提供数据支持。此外，Bi’anBench 数据集还可以用于研究 RAG 模型在不同领域和任务上的性能表现，为构建更加通用的 RAG 模型提供数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集