FaithBench
收藏arXiv2024-10-17 更新2024-10-19 收录
下载链接:
https://github.com/vectara/FaithBench
下载链接
链接失效反馈官方服务:
资源简介:
FaithBench是由Vectara, Inc.创建的一个用于评估现代大型语言模型(LLMs)在摘要生成中幻觉现象的多样化基准数据集。该数据集包含了由10个不同家族的现代LLMs生成的660个挑战性幻觉样本,并由人类专家进行标注。数据集的创建过程包括从Vectara的幻觉排行榜中筛选样本,并进行严格的人工标注,以确保标注质量。FaithBench主要应用于评估LLMs的幻觉率和幻觉检测模型的准确性,旨在解决现有评估方法中缺乏多样性和时效性的问题。
FaithBench is a diverse benchmark dataset created by Vectara, Inc. for evaluating hallucination phenomena in summarization tasks of modern large language models (LLMs). The dataset contains 660 challenging hallucination samples generated by modern LLMs from 10 distinct families, and has been manually annotated by human experts. The dataset creation process involves screening samples from Vectara's Hallucination Leaderboard and conducting rigorous manual annotation to ensure annotation quality. FaithBench is primarily used to evaluate the hallucination rate of LLMs and the accuracy of hallucination detection models, aiming to address the issues of lack of diversity and timeliness in existing evaluation methods.
提供机构:
Vectara, Inc.
创建时间:
2024-10-17
原始信息汇总
FaithBench 数据集概述
数据格式
- 样本格式:JSON 格式
- 字段说明:
sample_id:样本IDsource:原始文本summary:摘要annotations:注释列表annot_id:注释IDsample_id:样本IDannotator:注释者IDlabel:标签note:注释说明annotator_name:注释者名称summary_span:摘要中的文本片段summary_start:摘要片段的起始位置summary_end:摘要片段的结束位置
meta_model:模型名称meta_hhemv1:模型性能指标meta_hhem-2.1:模型性能指标meta_hhem-2.1-english:模型性能指标meta_trueteacher:模型性能指标meta_true_nli:模型性能指标meta_gpt-3.5-turbo:模型性能指标meta_gpt-4-turbo:模型性能指标meta_gpt-4o:模型性能指标meta_sample_id:样本ID
许可证
- 许可证类型:CC BY-NC-SA
- 使用限制:
- 禁止将数据集用于商业用途,包括但不限于:
- 直接或间接用于微调商业模型。
- 使用数据集增强训练数据以训练模型。
- 使用数据集训练影响其他商业模型训练的模型。
- 数据集仅可用于研究目的。
- 禁止将数据集用于商业用途,包括但不限于:
搜集汇总
数据集介绍

构建方式
FaithBench数据集的构建基于Vectara的幻觉排行榜,该排行榜在社区中广受欢迎,包含由数十个现代大型语言模型(LLMs)生成的摘要。研究团队在此基础上增加了人类专家的标注,包括对文本片段级别的详细解释,以确保标注的准确性和可靠性。数据集聚焦于标注那些幻觉检测模型存在分歧的挑战性样本,从而最大化标注的价值。标注过程分为两个阶段,首先独立标注,然后通过讨论解决分歧,最终形成高质量的标注数据。
特点
FaithBench数据集的显著特点在于其广泛覆盖了8个不同的大型语言模型家族,涵盖了多样化的幻觉特征。此外,数据集引入了两个新的‘灰色区域’标签——‘可疑的’和‘良性的’,以反映幻觉感知的主观性。数据集仅包含挑战性样本,这些样本在现有幻觉检测模型中存在较大分歧,从而为未来研究提供了宝贵的校准数据。
使用方法
FaithBench数据集主要用于评估大型语言模型在摘要生成任务中的幻觉率和幻觉检测模型的准确性。研究者可以通过该数据集对不同模型进行排名,并分析幻觉检测模型的性能。数据集的标注细节和样本分布为研究者提供了深入理解幻觉现象的工具,有助于推动幻觉检测和缓解技术的发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)在处理文本数据中的应用日益增多,确保其可信度已成为一个关键问题。在诸如检索增强生成(RAG)等应用中,LLMs被用于从文本输入中生成答案或摘要。然而,当生成的文本包含未经支持的信息时,这被视为一种幻觉,可能导致误导或有害。理解LLMs中的幻觉状态至关重要,但现有幻觉排行榜,如Vectara的幻觉排行榜和Galileo的幻觉指数,使用Google的TrueTeacher或Vectara的HHEM-2.1-Open等模型进行幻觉检测,这些模型的准确率在AggreFact和RAGTruth等基准上低于80%。此外,现有基准通常依赖于选择范围狭窄的LLMs,许多模型已过时且缺乏多样性。为了解决这一问题,FaithBench数据集应运而生,它包含了由10个现代LLMs生成的摘要,涵盖了8个不同的模型家族,并由人类专家进行地面真值标注,旨在提供一个更可靠的幻觉评估基准。
当前挑战
FaithBench数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括选择具有代表性的LLMs和确保标注的多样性。为了平衡标注者的努力和LLM的多样性,数据集仅限于八个最受欢迎的LLM家族,并选择了最新一代中的最小版本。其次,所解决的领域问题——幻觉检测的挑战——也极为复杂。尽管GPT-4o和GPT-3.5-Turbo在FaithBench上产生的幻觉最少,但即使是最好的幻觉检测模型在该基准上的准确率也接近50%,这表明在幻觉检测方面仍有很大的改进空间。此外,FaithBench引入了两个新的“灰色区域”标签——“可疑”和“良性”,以考虑幻觉感知的主观性,这进一步增加了标注和模型评估的复杂性。
常用场景
经典使用场景
FaithBench数据集在自然语言处理领域中,主要用于评估现代大型语言模型(LLMs)在生成摘要时的幻觉现象。通过包含由10种不同家族的现代LLMs生成的摘要,FaithBench为研究人员提供了一个全面的基准,用于检测和分析这些模型在处理文本数据时可能产生的非事实性信息。这一场景在确保LLMs在诸如检索增强生成(RAG)等应用中的可信度方面具有重要意义。
实际应用
FaithBench数据集在实际应用中,主要用于提升大型语言模型在生成可信摘要方面的性能。通过使用FaithBench进行模型训练和评估,开发者可以识别和修正模型在生成文本时可能产生的错误信息,从而提高其在新闻摘要、法律文书摘要等领域的应用效果。此外,FaithBench还可用于开发更精确的幻觉检测工具,帮助用户在实际使用中避免被误导。
衍生相关工作
FaithBench数据集的发布催生了一系列相关研究工作,特别是在幻觉检测和大型语言模型评估领域。例如,一些研究团队利用FaithBench开发了新的幻觉检测算法,旨在提高检测模型的准确性和鲁棒性。此外,FaithBench还激发了对LLMs生成文本中幻觉现象的深入研究,推动了相关理论和方法的发展。这些衍生工作不仅丰富了学术研究,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



