FactualBench

Name: FactualBench
Creator: 清华大学计算机科学与技术系、清华大学-博世联合机器学习中心、THBI实验室、BNRist中心
Published: 2025-02-26 21:34:52
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

http://arxiv.org/abs/2502.19127v1

下载链接

链接失效反馈

官方服务：

资源简介：

FactualBench是一个包含181000条中文问答数据的大型数据集，由清华大学计算机科学与技术系等多个机构构建。数据集覆盖了21个领域，从互联网百科全书提取知识构建而成，旨在为事实性问答任务提供训练和评估资源。

FactualBench is a large-scale dataset consisting of 181,000 Chinese question-answer pairs, developed by multiple institutions including the Department of Computer Science and Technology at Tsinghua University. This dataset spans 21 distinct domains, with knowledge extracted from online encyclopedias, and is designed to provide training and evaluation resources for factual question answering tasks.

提供机构：

清华大学计算机科学与技术系、清华大学-博世联合机器学习中心、THBI实验室、BNRist中心

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

FactualBench 数据集的构建主要来源于互联网百科全书，特别是中文社区中广泛使用的百度百科。通过模型驱动的流程，利用 GPT4 和 Baichuan 模型生成大量的数据，并通过一系列的过滤策略保证数据的质量。首先对百科条目进行筛选，然后对描述进行过滤，生成问题，并对问题进行分类和过滤，最终得到一个包含 181k 中文数据的综合性精确事实问答数据集，涵盖了 21 个领域。

特点

FactualBench 数据集具有以下特点：1）数据来源于互联网百科全书，涵盖了多个领域，具有广泛的覆盖面；2）数据经过严格的筛选和过滤，保证了数据的质量；3）数据集包含了精确和简单的事实问答，有助于评估和训练模型的事实性。

使用方法

FactualBench 数据集可以用于评估和训练模型的事实性。在评估方面，可以使用 GPT4 等模型对数据集中的问题进行评估，以判断模型的正确性。在训练方面，可以采用 SMA 等方法对模型进行训练，以提高模型的事实性和其他能力。

背景与挑战

背景概述

在大型语言模型（LLMs）的应用中，一个重要的挑战是它们在回答问题时可能出现事实性幻觉，即生成不准确或完全虚构的内容。这种现象不仅损害了用户对模型的信任，而且在高风险应用中可能导致严重后果。张思源等人（2025）提出的自我记忆对齐（SMA）方法，旨在通过增强LLMs利用其现有记忆（即从预训练数据中获取的知识）的能力，来减少事实性幻觉。他们构建了FactualBench，一个包含18.1万个中文问答数据的大型数据集，涵盖21个领域，用于评估和训练模型。实验表明，SMA显著提高了LLMs在事实性、有用性和综合技能等方面的整体性能。

当前挑战

尽管SMA方法在减少LLMs的事实性幻觉方面取得了显著成果，但仍然存在一些挑战。首先，如何确保LLMs在广泛的应用场景中都能准确利用其现有记忆，而不仅仅是特定领域。其次，如何进一步提高模型的训练效率和性能，以适应更复杂和多样化的任务。最后，如何评估LLMs的长期稳定性和可靠性，以确保其在实际应用中的安全性和有效性。

常用场景

经典使用场景

FactualBench数据集主要用于训练和评估大型语言模型（LLM）在事实性问答任务上的性能，特别是针对减少事实性幻觉（factual hallucinations）的问题。通过精确和简单的事实性问答，该数据集帮助模型提高对已有知识的利用能力，从而提升事实性问答的准确性。

衍生相关工作

FactualBench数据集的提出和构建为LLM的事实性幻觉问题研究提供了新的思路和方法。该数据集的构建和设计为后续的相关研究提供了重要的参考和借鉴，推动了LLM在事实性问答任务上的研究和应用。

数据集最近研究