AA-Omniscience-Public
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/ArtificialAnalysis/AA-Omniscience-Public
下载链接
链接失效反馈官方服务:
资源简介:
AA-Omniscience-Public是一个包含600个跨领域问题的公开数据集,用于评估模型在不同领域的知识回忆能力和在知识不足时的不回答倾向。
创建时间:
2025-11-17
原始信息汇总
AA-Omniscience-Public 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 数据集名称: AA-Omniscience-Public
数据集简介
AA-Omniscience-Public 是一个用于评估大型语言模型跨领域知识可靠性的基准数据集,包含600个涵盖广泛领域的问题,用于测试模型的知识和幻觉倾向。
数据集描述
- 总问题量: 600个问题
- 与完整集关系: 这是完整问题集的10%子集
- 代表性: 公共集在发布时与完整集的模型性能表现密切对应
- 适用场景: 足以获得模型在Omniscience Index上的整体表现指标,包括知识准确性和幻觉率
- 局限性: 在领域或主题层面的结果不可靠,因为数据集规模太小
数据集特点
- 问题难度: 问题足够困难,只有领域专家才能回答
- 明确性: 每个问题都有单一正确答案,所有必要上下文都在问题中提供
- 独立性: 不依赖特定来源测试主题知识
- 精确性: 只需简短精确答案,如日期、名称、数字、位置
评估方法
- 评估设置: 模型无上下文或工具访问权限
- 回答提示: 模型被指示仅在确信时回答,否则应弃权
- 评分模型: 使用Google的Gemini 2.5 Flash Preview (09-2025)进行评分
- 评分等级: 正确、错误、部分正确、未尝试
引用信息
json @dataset{artificialanalysis2025omniscience, title={Artificial Analysis Omniscience (AA-Omniscience)}, author={Artificial Analysis Team}, year={2025}, publisher={Artificial Analysis} }
相关资源
搜集汇总
数据集介绍

构建方式
在构建AA-Omniscience-Public数据集的过程中,研究团队采用自动化问题生成代理技术,从权威知识源中提取并生成初始问题。通过严格的筛选机制,确保问题在难度、明确性和精确性方面达到专业标准,最终形成覆盖多个经济关键领域的600个问题集合。该公共版本作为完整数据集的10%代表性样本,通过分层抽样方法保证了模型评估结果的可靠性,同时维护了基准测试的完整性。
使用方法
使用该数据集时,需遵循特定的评估协议:模型在无上下文辅助的条件下直接回答问题,并被告知在不确定时应主动弃答。评估过程采用分级模型对答案进行四类判定——完全正确、错误、部分正确或未尝试回答。通过标准化的提示模板和评分规则,确保不同模型间的性能比较具有一致性和可重复性,为跨领域知识可靠性研究提供严谨的基准平台。
背景与挑战
背景概述
随着大语言模型在跨领域知识应用中的广泛部署,评估其知识可靠性与幻觉抑制能力成为自然语言处理领域的核心议题。AA-Omniscience数据集由Artificial Analysis团队于2025年创建,通过构建涵盖经济关键领域的6000道专业级问题,系统化衡量模型在未知问题上的主动弃答能力与事实召回精度。该数据集采用自动化问答生成框架,从权威知识源提取并过滤问题,其设计的惩罚机制突破了传统准确率指标的局限,为领域适应性研究提供了重要基准。
当前挑战
该数据集致力于解决跨领域知识评估中的双重挑战:在问题构建层面,需确保问题兼具专业深度与答案唯一性,同时避免因依赖特定知识源导致的评估偏差;在技术实现层面,评分体系需精确区分部分正确与完全错误回答,并处理数字精度、专有名词变体等边界情况。此外,公开子集仅保留全量数据10%的规模,虽能反映整体性能趋势,但难以支撑细粒度领域分析,这对评估结果的统计显著性提出更高要求。
常用场景
经典使用场景
在大型语言模型评估领域,AA-Omniscience-Public数据集通过跨领域知识问答任务,系统性地衡量模型在医学、法律、技术等专业领域的知识储备与幻觉抑制能力。其独特评分机制强调模型对不确定问题的主动弃答,为前沿模型的认知边界绘制提供了标准化测试框架。
解决学术问题
该数据集有效解决了大语言模型领域三个核心问题:知识可靠性评估的量化标准缺失、跨领域泛化能力的客观测量、以及幻觉产生机制的归因分析。通过构建具有惩罚机制的评估体系,推动了模型自我认知能力研究从理论假设向实证验证的转变,为可信人工智能的发展提供了关键基准。
实际应用
在产业实践中,该数据集被广泛应用于智能客服系统的事实核查、专业领域知识库的完整性验证、以及金融法律等高风险场景的决策辅助系统开发。其权威性问题来源与精细化评分标准,为企业在选择领域专用模型时提供了可靠的性能参照依据。
数据集最近研究
最新研究方向
在大型语言模型评估领域,AA-Omniscience数据集正推动知识可靠性与跨领域推理能力的前沿探索。该数据集通过惩罚错误猜测的独特评分机制,将研究焦点从传统准确率转向模型对未知领域的认知边界识别,尤其在金融、法律等高价值专业场景中凸显其重要性。当前研究热点集中于结合思维链提示与多模态知识融合技术,以提升模型在复杂领域中的事实性判断与自主避错能力,为构建可信赖的人工智能系统提供关键评估基准。
以上内容由遇见数据集搜集并总结生成



