five

FBI

收藏
Hugging Face2024-06-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ai4bharat/FBI
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含多个配置,每个配置针对不同的任务能力,如长篇写作、事实性、指令遵循和推理。每个配置下有多个数据文件,分别对应不同类型的错误或分割。该数据集是FBI元评估框架的一部分,旨在评估评估者LLM在各种任务和评估策略中的鲁棒性。数据集还详细描述了任务和扰动,为数据集的目的和使用提供了背景。
创建时间:
2024-06-19
原始信息汇总

数据集概述

数据集配置

事实性错误 (factual)

  • 上下文错误 (contextual): factual/contextual-errors.tsv
  • 实体错误 (entity): factual/entity-errors.tsv
  • 不正确事实 (inforrect_fact): factual/incorrect-fact.tsv
  • 相反事实 (opposite_fact): factual/opposite-fact.tsv
  • 移除事实 (remove_fact): factual/remove-fact.tsv
  • 数字错误 (number_error): factual/number-errors.tsv

指令遵循错误 (instruction-following)

  • 假设错误 (assumption): instruction-following/assumption-errors.tsv
  • 少做错误 (do_less): instruction-following/do-less-errors.tsv
  • 多做错误 (do_more): instruction-following/do-more-errors.tsv
  • 忽略格式错误 (ignore_format): instruction-following/ignore-format-errors.tsv
  • 顺序错误 (sequence_errors): instruction-following/incorrect-sequence-errors.tsv

长文写作错误 (long-form)

  • 连贯性错误 (coherence): long-form/coherence-errors.tsv
  • 全面性错误 (comprehensiveness): long-form/comprehensiveness-errors.tsv
  • 一致性错误 (consistency): long-form/consistency-errors.tsv
  • 语法错误 (grammar): long-form/grammar-errors.tsv
  • 拼写错误 (spelling_errors): long-form/spelling-errors.tsv
  • 时间顺序错误 (chronology): long-form/seq-errors.tsv

推理错误 (reasoning)

  • 计算错误 (calculation): reasoning/calculation-errors.tsv
  • 复制数字错误 (copying_numbers): reasoning/copying-numbers-errors.tsv
  • 最终答案错误 (final_errors): reasoning/final-answer-errors.tsv
  • 单位错误 (incorrect_units): reasoning/incorrect-units.tsv
  • 错误公式 (wrong_formula): reasoning/wrong-formula.tsv

分数不变错误 (score-invariant)

  • 分数不变 (score_invariant): score-invariant/score_invariant.tsv
搜集汇总
数据集介绍
main_image_url
构建方式
FBI数据集通过精心设计的元评估框架构建,旨在评估评估型大语言模型(LLMs)在不同任务和评估策略中的鲁棒性。数据集的构建过程涉及手动分类提示,将其划分为长文本写作、事实性、指令遵循和推理四大任务类别。每个类别下进一步细分为多个扰动类型,如上下文错误、实体错误、计算错误等,通过生成扰动文本以模拟模型可能遇到的盲点。
使用方法
使用FBI数据集时,研究者可通过加载不同配置文件和分割文件,获取特定任务类别下的扰动数据。数据集支持多种格式,如TSV文件,便于数据读取和处理。研究者可利用这些数据对评估型LLMs进行鲁棒性测试,分析模型在不同扰动下的表现。此外,数据集附带的代码库提供了生成扰动和运行评估的工具,进一步简化了实验流程。
背景与挑战
背景概述
FBI数据集由Sumanth Doddapaneni等研究人员于2024年提出,旨在评估大语言模型(LLMs)在不同任务和评估策略中的鲁棒性。该数据集通过构建可解释的检查表,系统地识别和分类LLMs在长文本生成、事实检索、指令执行和逻辑推理等任务中的盲点。FBI的提出标志着LLMs评估领域的一个重要进展,为模型性能的全面评估提供了新的方法论支持。该数据集不仅为研究人员提供了丰富的实验数据,还推动了LLMs在复杂任务中的性能优化和错误分析。
当前挑战
FBI数据集在构建和应用过程中面临多重挑战。首先,数据集的构建需要精确识别和分类LLMs在不同任务中的错误类型,这要求研究人员具备深厚的领域知识和细致的标注能力。其次,扰动生成的过程需要确保扰动后的文本在语义上与原文本保持一致,同时又能有效暴露模型的盲点。此外,评估LLMs的鲁棒性需要设计多样化的任务和评估策略,这对数据集的多样性和复杂性提出了较高要求。最后,如何将FBI数据集应用于实际模型优化,仍需进一步探索和验证。
常用场景
经典使用场景
FBI数据集主要用于评估大型语言模型(LLMs)在不同任务和评估策略中的鲁棒性。通过引入多种扰动类别,该数据集能够系统地测试模型在长文本生成、事实性信息提取、指令遵循和逻辑推理等任务中的表现。研究人员可以利用该数据集对模型进行全面的性能评估,识别模型在特定任务中的盲点,从而优化模型的训练和评估流程。
解决学术问题
FBI数据集解决了评估大型语言模型鲁棒性的关键学术问题。通过提供多样化的扰动样本,该数据集帮助研究人员深入理解模型在面对不同类型错误时的表现,尤其是在事实性错误、指令执行错误和逻辑推理错误等方面的表现。这不仅为模型评估提供了新的视角,还为改进模型的鲁棒性和泛化能力提供了数据支持。
实际应用
在实际应用中,FBI数据集可用于优化和验证自然语言处理系统的性能。例如,在智能客服、自动写作助手和教育技术等领域,该数据集可以帮助开发者识别和修复系统中的潜在错误,提升系统的可靠性和用户体验。此外,该数据集还可用于生成更高质量的评估基准,推动相关技术的商业化应用。
数据集最近研究
最新研究方向
在自然语言处理领域,FBI数据集的最新研究方向聚焦于评估大型语言模型(LLMs)的鲁棒性。该数据集通过引入可解释的检查清单,系统地检测评估模型在不同任务中的盲点。具体而言,研究涵盖了长文本生成、事实性信息提取、指令遵循以及逻辑推理等多个任务类别。通过生成多样化的扰动样本,FBI数据集为模型在复杂场景下的表现提供了全面的评估框架。这一研究不仅推动了模型评估方法的创新,还为提升模型的泛化能力和可靠性提供了重要参考,具有深远的学术和应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作