fantastic-bugs

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/stair-lab/fantastic-bugs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个分割，每个分割针对不同的医学和问答场景。具体包括：医疗问答（med_qa）、临床知识（mmlu_clinical_knowledge）、医学专业知识（mmlu_professional_medicine）、空气品质评估（airbench）、泰国考试数据（thaiexam）和开放书籍问答（openbookqa）。每个分割都包含四个字段：tetrachoric_correlation（四分相关系数）、question（问题）、answer_key（答案关键信息）和review（评审内容）。

创建时间：

2025-05-20

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，Fantastic Bugs数据集通过系统化的工作流程构建而成。该流程首先采用四格相关系数对多个主流基准测试进行异常评分，识别出可能存在偏差的题目。随后，领域专家对评分最高的候选题目进行独立审查，将专业意见记录在review字段中。对于GSM8K和MMLU Math这两个基准，由于已存在经过全面修订的版本，数据集直接收录了项目中新发现的问题题目。

使用方法

研究人员可借助该数据集开展基准测试的质量评估研究，通过异常分数排序优先审查问题题目。在实际应用中，建议结合配套的二元响应矩阵数据集进行联合分析，该矩阵完整记录了模型对每个题目的回答情况。使用时可重点关注专家评审意见与异常分数的相关性，从而建立更可靠的题目筛选机制。数据集支持按基准类型分拆使用，便于针对特定领域开展深入分析。

背景与挑战

背景概述

Fantastic Bugs数据集诞生于人工智能基准测试质量评估的前沿研究，伴随论文《Fantastic Bugs and Where to Find Them in AI Benchmarks》发布。该数据集由斯坦福大学等研究机构的学者构建，旨在系统识别主流AI评测基准中的异常题目。其核心研究问题聚焦于通过心理测量学方法与领域专家评审相结合，提升基准数据的可靠性与公正性。这一工作对推动AI模型评估的严谨性产生了深远影响，为后续基准修订提供了方法论基础。

当前挑战

数据集致力于解决AI基准测试中题目质量参差不齐的挑战，包括题目歧义、标注错误及文化偏见等问题。在构建过程中，需克服多源基准数据格式异构性、专家评审主观性协调以及大规模响应矩阵的标准化处理等困难。尤其需平衡统计异常检测与人工验证的精度，确保跨领域问题的可复现性。

常用场景

经典使用场景

在人工智能基准评估领域，Fantastic Bugs数据集通过整合心理测量学异常评分与领域专家评审，为识别和修正基准测试中的缺陷问题提供了系统化工具。该数据集广泛应用于模型鲁棒性分析，研究人员利用其标注的异常题目对各类AI模型进行压力测试，揭示模型在特定知识领域的盲点与偏差。

解决学术问题

该数据集有效解决了基准测试中题目质量参差不齐的学术难题，通过四极相关系数量化题目异常程度，结合专家评审机制，为构建可靠评估体系提供数据支撑。其意义在于推动评估方法学从单纯性能比较转向质量可控的科学验证，显著提升了AI模型能力评估的信度与效度。

实际应用

在实际应用中，该数据集被集成到模型开发流水线中，用于筛选训练数据中的噪声样本，优化医疗问答、数学推理等专业领域的模型表现。教育科技企业可借助其专家评审结果改进智能辅导系统的题目库，而研究机构则将其作为验证新模型泛化能力的黄金标准集。

数据集最近研究