FELM

Name: FELM
Creator: 香港科技大学
Published: 2023-11-28 16:06:53
License: 暂无描述

arXiv2023-11-28 更新2024-06-21 收录

下载链接：

https://github.com/hkust-nlp/felm

下载链接

链接失效反馈

官方服务：

资源简介：

FELM数据集是由香港科技大学开发的一个用于评估大型语言模型真实性的基准。该数据集收集了来自不同领域的响应，并进行了细致的真实性标注，旨在帮助研究人员和开发者识别和改进语言模型中的事实错误。数据集包含817个样本，覆盖了从世界知识到数学和推理等多个领域，通过细粒度的文本段落标注，可以精确地定位特定的事实错误。此外，数据集还提供了预定义的错误类型和参考链接，以支持或反驳声明，从而推动更可靠的语言模型的发展。

The FELM dataset is a benchmark developed by The Hong Kong University of Science and Technology for evaluating the factuality of large language models. It collects responses from diverse domains and conducts fine-grained factuality annotations, aiming to assist researchers and developers in identifying and rectifying factual errors in language models. The dataset contains 817 samples covering multiple domains ranging from world knowledge to mathematics and reasoning. Through fine-grained text paragraph annotations, it can accurately pinpoint specific factual errors. In addition, the dataset provides predefined error categories and reference links to support or refute claims, thereby advancing the development of more reliable language models.

提供机构：

香港科技大学

创建时间：

2023-10-02

搜集汇总

数据集介绍

构建方式

FELM 数据集的构建过程分为四个步骤：首先，从各种来源收集提示信息，包括在线平台、标准基准和 ChatGPT 自我指导生成等；其次，使用 ChatGPT 在零样本设置下生成响应；然后，将每个响应分割成细粒度的文本片段；最后，邀请专家标注者对每个片段进行事实性标注，包括事实性标签、错误原因、错误类型和参考链接。

特点

FELM 数据集具有以下特点：首先，它涵盖了五个不同的领域，包括世界知识、科学技术、写作与推荐、推理和数学，以全面评估大型语言模型在不同场景下的生成事实性；其次，数据集采用细粒度标注，允许事实性评估器独立检查每个片段，提高了可解释性；此外，FELM 数据集还提供了详细的错误信息，如错误类型、错误原因和参考链接，为用户提供更全面的评估结果。

使用方法

FELM 数据集可用于评估各种事实性评估器，包括基于大型语言模型的评估器和基于检索机制的评估器。评估器可以使用细粒度片段或原子事实声明进行评估，并可选择使用链式思维或参考链接/文档来辅助评估。实验结果表明，检索增强方法在检测事实性错误方面表现出色，而 GPT-4 等大型语言模型在结合检索增强方法和链式思维方法时表现最佳。

背景与挑战

背景概述

随着大型语言模型（LLMs）的兴起，评估其生成文本的真实性成为一个新兴且至关重要的研究领域。为了应对LLMs生成文本中可能存在的错误或幻觉内容，FELM数据集应运而生。该数据集由香港城市大学、香港科技大学、新加坡国立大学、卡内基梅隆大学和上海交通大学的研究人员共同创建，旨在为评估LLMs生成文本的真实性提供一个基准。FELM数据集的创建时间为2023年，其核心研究问题是评估LLMs生成文本的真实性，从而指导更可靠LLMs的发展。该数据集对相关领域的影响力体现在，它不仅涵盖了世界知识领域，还涵盖了科学和技术、数学、写作和推荐、推理等多个领域，为LLMs在各个场景下的应用提供了重要的参考价值。

当前挑战

FELM数据集面临的挑战主要包括：1)LLMs生成文本的真实性评估是一个新兴领域，目前仍处于探索阶段，需要进一步的研究和开发；2)FELM数据集的构建过程中，需要收集大量的LLMs生成文本并进行标注，这是一个耗时且成本较高的过程；3)LLMs生成文本的真实性评估需要依赖于外部工具，例如搜索引擎，这可能会影响评估结果的准确性和可靠性。

常用场景

经典使用场景

FELM 数据集是一个用于评估大型语言模型（LLM）生成文本真实性的基准数据集。该数据集收集了 LLM 生成的大量文本片段，并对这些片段进行了细粒度的真实性标注。FELM 数据集涵盖了五个不同的领域：世界知识、科学技术、数学、写作与推荐以及推理。这使得 FELM 成为评估 LLM 在不同任务场景下生成文本真实性的重要工具。

衍生相关工作

FELM 数据集的提出引发了相关领域的研究热潮。例如，一些研究使用 FELM 数据集来评估不同 LLM 生成文本真实性的性能，并提出了改进 LLM 生成文本真实性的方法。此外，一些研究还使用 FELM 数据集来开发新的 LLM 生成文本真实性评估系统，以提高 LLM 生成文本的真实性和可信度。

数据集最近研究