FBI

Hugging Face2024-06-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ai4bharat/FBI

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含多个配置，每个配置针对不同的任务能力，如长篇写作、事实性、指令遵循和推理。每个配置下有多个数据文件，分别对应不同类型的错误或分割。该数据集是FBI元评估框架的一部分，旨在评估评估者LLM在各种任务和评估策略中的鲁棒性。数据集还详细描述了任务和扰动，为数据集的目的和使用提供了背景。

创建时间：

2024-06-19

原始信息汇总

数据集概述

数据集配置

事实性错误 (factual)

上下文错误 (contextual): factual/contextual-errors.tsv
实体错误 (entity): factual/entity-errors.tsv
不正确事实 (inforrect_fact): factual/incorrect-fact.tsv
相反事实 (opposite_fact): factual/opposite-fact.tsv
移除事实 (remove_fact): factual/remove-fact.tsv
数字错误 (number_error): factual/number-errors.tsv

指令遵循错误 (instruction-following)

假设错误 (assumption): instruction-following/assumption-errors.tsv
少做错误 (do_less): instruction-following/do-less-errors.tsv
多做错误 (do_more): instruction-following/do-more-errors.tsv
忽略格式错误 (ignore_format): instruction-following/ignore-format-errors.tsv
顺序错误 (sequence_errors): instruction-following/incorrect-sequence-errors.tsv

长文写作错误 (long-form)

连贯性错误 (coherence): long-form/coherence-errors.tsv
全面性错误 (comprehensiveness): long-form/comprehensiveness-errors.tsv
一致性错误 (consistency): long-form/consistency-errors.tsv
语法错误 (grammar): long-form/grammar-errors.tsv
拼写错误 (spelling_errors): long-form/spelling-errors.tsv
时间顺序错误 (chronology): long-form/seq-errors.tsv

推理错误 (reasoning)

计算错误 (calculation): reasoning/calculation-errors.tsv
复制数字错误 (copying_numbers): reasoning/copying-numbers-errors.tsv
最终答案错误 (final_errors): reasoning/final-answer-errors.tsv
单位错误 (incorrect_units): reasoning/incorrect-units.tsv
错误公式 (wrong_formula): reasoning/wrong-formula.tsv

分数不变错误 (score-invariant)

分数不变 (score_invariant): score-invariant/score_invariant.tsv

搜集汇总

数据集介绍

构建方式

FBI数据集通过精心设计的元评估框架构建，旨在评估评估型大语言模型（LLMs）在不同任务和评估策略中的鲁棒性。数据集的构建过程涉及手动分类提示，将其划分为长文本写作、事实性、指令遵循和推理四大任务类别。每个类别下进一步细分为多个扰动类型，如上下文错误、实体错误、计算错误等，通过生成扰动文本以模拟模型可能遇到的盲点。

使用方法

使用FBI数据集时，研究者可通过加载不同配置文件和分割文件，获取特定任务类别下的扰动数据。数据集支持多种格式，如TSV文件，便于数据读取和处理。研究者可利用这些数据对评估型LLMs进行鲁棒性测试，分析模型在不同扰动下的表现。此外，数据集附带的代码库提供了生成扰动和运行评估的工具，进一步简化了实验流程。

背景与挑战

背景概述

FBI数据集由Sumanth Doddapaneni等研究人员于2024年提出，旨在评估大语言模型（LLMs）在不同任务和评估策略中的鲁棒性。该数据集通过构建可解释的检查表，系统地识别和分类LLMs在长文本生成、事实检索、指令执行和逻辑推理等任务中的盲点。FBI的提出标志着LLMs评估领域的一个重要进展，为模型性能的全面评估提供了新的方法论支持。该数据集不仅为研究人员提供了丰富的实验数据，还推动了LLMs在复杂任务中的性能优化和错误分析。

当前挑战

FBI数据集在构建和应用过程中面临多重挑战。首先，数据集的构建需要精确识别和分类LLMs在不同任务中的错误类型，这要求研究人员具备深厚的领域知识和细致的标注能力。其次，扰动生成的过程需要确保扰动后的文本在语义上与原文本保持一致，同时又能有效暴露模型的盲点。此外，评估LLMs的鲁棒性需要设计多样化的任务和评估策略，这对数据集的多样性和复杂性提出了较高要求。最后，如何将FBI数据集应用于实际模型优化，仍需进一步探索和验证。

常用场景

经典使用场景

FBI数据集主要用于评估大型语言模型（LLMs）在不同任务和评估策略中的鲁棒性。通过引入多种扰动类别，该数据集能够系统地测试模型在长文本生成、事实性信息提取、指令遵循和逻辑推理等任务中的表现。研究人员可以利用该数据集对模型进行全面的性能评估，识别模型在特定任务中的盲点，从而优化模型的训练和评估流程。

解决学术问题

FBI数据集解决了评估大型语言模型鲁棒性的关键学术问题。通过提供多样化的扰动样本，该数据集帮助研究人员深入理解模型在面对不同类型错误时的表现，尤其是在事实性错误、指令执行错误和逻辑推理错误等方面的表现。这不仅为模型评估提供了新的视角，还为改进模型的鲁棒性和泛化能力提供了数据支持。

实际应用

在实际应用中，FBI数据集可用于优化和验证自然语言处理系统的性能。例如，在智能客服、自动写作助手和教育技术等领域，该数据集可以帮助开发者识别和修复系统中的潜在错误，提升系统的可靠性和用户体验。此外，该数据集还可用于生成更高质量的评估基准，推动相关技术的商业化应用。

数据集最近研究