FBI
收藏Hugging Face2024-06-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ai4bharat/FBI
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含多个配置,每个配置针对不同的任务能力,如长篇写作、事实性、指令遵循和推理。每个配置下有多个数据文件,分别对应不同类型的错误或分割。该数据集是FBI元评估框架的一部分,旨在评估评估者LLM在各种任务和评估策略中的鲁棒性。数据集还详细描述了任务和扰动,为数据集的目的和使用提供了背景。
创建时间:
2024-06-19
原始信息汇总
数据集概述
数据集配置
事实性错误 (factual)
- 上下文错误 (contextual):
factual/contextual-errors.tsv - 实体错误 (entity):
factual/entity-errors.tsv - 不正确事实 (inforrect_fact):
factual/incorrect-fact.tsv - 相反事实 (opposite_fact):
factual/opposite-fact.tsv - 移除事实 (remove_fact):
factual/remove-fact.tsv - 数字错误 (number_error):
factual/number-errors.tsv
指令遵循错误 (instruction-following)
- 假设错误 (assumption):
instruction-following/assumption-errors.tsv - 少做错误 (do_less):
instruction-following/do-less-errors.tsv - 多做错误 (do_more):
instruction-following/do-more-errors.tsv - 忽略格式错误 (ignore_format):
instruction-following/ignore-format-errors.tsv - 顺序错误 (sequence_errors):
instruction-following/incorrect-sequence-errors.tsv
长文写作错误 (long-form)
- 连贯性错误 (coherence):
long-form/coherence-errors.tsv - 全面性错误 (comprehensiveness):
long-form/comprehensiveness-errors.tsv - 一致性错误 (consistency):
long-form/consistency-errors.tsv - 语法错误 (grammar):
long-form/grammar-errors.tsv - 拼写错误 (spelling_errors):
long-form/spelling-errors.tsv - 时间顺序错误 (chronology):
long-form/seq-errors.tsv
推理错误 (reasoning)
- 计算错误 (calculation):
reasoning/calculation-errors.tsv - 复制数字错误 (copying_numbers):
reasoning/copying-numbers-errors.tsv - 最终答案错误 (final_errors):
reasoning/final-answer-errors.tsv - 单位错误 (incorrect_units):
reasoning/incorrect-units.tsv - 错误公式 (wrong_formula):
reasoning/wrong-formula.tsv
分数不变错误 (score-invariant)
- 分数不变 (score_invariant):
score-invariant/score_invariant.tsv
搜集汇总
数据集介绍

构建方式
FBI数据集通过精心设计的元评估框架构建,旨在评估评估型大语言模型(LLMs)在不同任务和评估策略中的鲁棒性。数据集的构建过程涉及手动分类提示,将其划分为长文本写作、事实性、指令遵循和推理四大任务类别。每个类别下进一步细分为多个扰动类型,如上下文错误、实体错误、计算错误等,通过生成扰动文本以模拟模型可能遇到的盲点。
使用方法
使用FBI数据集时,研究者可通过加载不同配置文件和分割文件,获取特定任务类别下的扰动数据。数据集支持多种格式,如TSV文件,便于数据读取和处理。研究者可利用这些数据对评估型LLMs进行鲁棒性测试,分析模型在不同扰动下的表现。此外,数据集附带的代码库提供了生成扰动和运行评估的工具,进一步简化了实验流程。
背景与挑战
背景概述
FBI数据集由Sumanth Doddapaneni等研究人员于2024年提出,旨在评估大语言模型(LLMs)在不同任务和评估策略中的鲁棒性。该数据集通过构建可解释的检查表,系统地识别和分类LLMs在长文本生成、事实检索、指令执行和逻辑推理等任务中的盲点。FBI的提出标志着LLMs评估领域的一个重要进展,为模型性能的全面评估提供了新的方法论支持。该数据集不仅为研究人员提供了丰富的实验数据,还推动了LLMs在复杂任务中的性能优化和错误分析。
当前挑战
FBI数据集在构建和应用过程中面临多重挑战。首先,数据集的构建需要精确识别和分类LLMs在不同任务中的错误类型,这要求研究人员具备深厚的领域知识和细致的标注能力。其次,扰动生成的过程需要确保扰动后的文本在语义上与原文本保持一致,同时又能有效暴露模型的盲点。此外,评估LLMs的鲁棒性需要设计多样化的任务和评估策略,这对数据集的多样性和复杂性提出了较高要求。最后,如何将FBI数据集应用于实际模型优化,仍需进一步探索和验证。
常用场景
经典使用场景
FBI数据集主要用于评估大型语言模型(LLMs)在不同任务和评估策略中的鲁棒性。通过引入多种扰动类别,该数据集能够系统地测试模型在长文本生成、事实性信息提取、指令遵循和逻辑推理等任务中的表现。研究人员可以利用该数据集对模型进行全面的性能评估,识别模型在特定任务中的盲点,从而优化模型的训练和评估流程。
解决学术问题
FBI数据集解决了评估大型语言模型鲁棒性的关键学术问题。通过提供多样化的扰动样本,该数据集帮助研究人员深入理解模型在面对不同类型错误时的表现,尤其是在事实性错误、指令执行错误和逻辑推理错误等方面的表现。这不仅为模型评估提供了新的视角,还为改进模型的鲁棒性和泛化能力提供了数据支持。
实际应用
在实际应用中,FBI数据集可用于优化和验证自然语言处理系统的性能。例如,在智能客服、自动写作助手和教育技术等领域,该数据集可以帮助开发者识别和修复系统中的潜在错误,提升系统的可靠性和用户体验。此外,该数据集还可用于生成更高质量的评估基准,推动相关技术的商业化应用。
数据集最近研究
最新研究方向
在自然语言处理领域,FBI数据集的最新研究方向聚焦于评估大型语言模型(LLMs)的鲁棒性。该数据集通过引入可解释的检查清单,系统地检测评估模型在不同任务中的盲点。具体而言,研究涵盖了长文本生成、事实性信息提取、指令遵循以及逻辑推理等多个任务类别。通过生成多样化的扰动样本,FBI数据集为模型在复杂场景下的表现提供了全面的评估框架。这一研究不仅推动了模型评估方法的创新,还为提升模型的泛化能力和可靠性提供了重要参考,具有深远的学术和应用价值。
以上内容由遇见数据集搜集并总结生成



