ANGO

arXiv2024-02-21 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2401.04898v2

下载链接

链接失效反馈

官方服务：

资源简介：

ANGO是一个专为中文领域设计的多项选择题评估基准，由中国的研究团队开发。该数据集包含71,149个问题，源自2008至2023年的中国公务员考试，涵盖34个省份的官方及模拟考试。ANGO首次提出关键点分类标准，每个问题对应多个关键点，增强评估结果的可解释性。数据集根据实际人类表现建立可量化的难度标准，将问题分为9个难度级别，为模型训练提供精确指导。此外，ANGO采用专门的抽样策略和新的评估框架，支持快速测试集迭代，减少数据泄露的影响。

ANGO is a multiple-choice evaluation benchmark specifically designed for the Chinese language domain, developed by a Chinese research team. This dataset contains 71,149 questions sourced from Chinese civil service examinations held between 2008 and 2023, covering official and mock examinations from 34 provinces. ANGO is the first to propose a key point classification standard, where each question corresponds to multiple key points, thereby enhancing the interpretability of evaluation results. Moreover, a quantifiable difficulty criterion established based on actual human performance is adopted to categorize questions into 9 difficulty levels, providing precise guidance for model training. Additionally, ANGO employs a specialized sampling strategy and a novel evaluation framework, which enables rapid test set iteration and mitigates the impact of data leakage.

提供机构：

未知

创建时间：

2024-01-10

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型的能力日益成为研究焦点。ANGO数据集的构建源于对现有评测基准局限性的反思，其数据源严格限定于2008年至2023年间中国公务员考试中的行政职业能力测验题目。通过系统性的数据预处理流程，原始数据经过去重、剔除包含图像的题目以及将公式图像转化为文本等步骤，最终得到71,149条高质量的多项选择题记录。这一构建过程不仅确保了数据的权威性与时效性，也为深入评估模型在复杂中文语境下的综合能力奠定了坚实基础。

特点

ANGO数据集的核心特征在于其创新的评估框架设计。区别于传统基于学科的分类方式，该数据集首次提出了关键点分类标准，每个问题可对应多达六个不同的关键点，共计涵盖171个关键点及其988种组合，从而实现了对模型能力多维度的精细刻画。此外，基于真实人类答题表现，ANGO构建了可量化的题目难度标准，将问题划分为九个等级，为模型训练提供了更精确的梯度指引。这些特征共同赋予了ANGO更强的模型挑战性与评估结果的可解释性。

使用方法

为充分发挥ANGO数据集的评估效能，研究者需遵循其专门设计的评估框架。该框架采用少样本学习策略，通过动态长度示例采样方法，确保在有限示例下最大化信息保留。测试集的构建则采用基于关键点向量的平衡采样策略，以保障各能力维度的均衡覆盖。在评估过程中，除了传统的准确率指标，ANGO还引入了人类命中率和人类价值等新颖度量，旨在捕捉模型与人类认知模式的相似性。此外，通过季节性动态评估、选项顺序混淆及题目淘汰等机制，有效缓解了数据泄露对评测结果的干扰，确保了评估的持续公正性与权威性。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的迅猛发展，评估其性能的基准数据集日益受到关注。ANGO数据集由王炳超等人于2024年提出，旨在为中文生成导向的语言模型提供新一代评估基准。该数据集基于2008年至2023年中国公务员考试中的行政职业能力测验题目构建，涵盖71,149道高质量选择题。ANGO首次引入关键点分类标准，将每道题目映射至1至6个不等的关键点，形成包含171个关键点的四层树状结构，显著提升了评估结果的可解释性。同时，依据真实人类表现数据，ANGO构建了可量化的难度评分函数，将题目划分为9个难度等级，为模型训练提供了更精细的指导。这一创新性设计不仅增强了评估的全面性与准确性，也为中文大语言模型的能力分析开辟了新的维度。

当前挑战

ANGO数据集致力于解决生成导向语言模型在中文领域评估中的核心挑战，即传统基准在排名失真与能力分析不足方面的局限。具体而言，该数据集针对多项选择题评估中的三大难题：一是传统学科分类无法捕捉题目所需的多学科能力交叉，ANGO通过关键点组合实现了单题多能力映射；二是难度等级依赖教育阶段划分，缺乏客观量化标准，ANGO基于人类表现数据建立了连续难度函数；三是数据泄露导致评估失真，且数据集难以更新，ANGO设计了专门的抽样策略与动态评估框架，支持测试集的快速迭代。在构建过程中，团队面临数据清洗的复杂性，需从67万余条原始记录中去除重复项、图像内容及公式转换，确保最终数据的纯净性与一致性。

常用场景

经典使用场景

在自然语言处理领域，评估生成式语言模型的能力已成为研究焦点。ANGO作为中文多选问答评估基准，其经典使用场景在于系统性地测评模型在复杂语境下的综合表现。该数据集依托中国公务员考试中的行政职业能力测验题目，构建了涵盖言语理解、数量关系、判断推理等多维度的评估体系。通过精心设计的抽样策略与动态评估框架，ANGO能够深入剖析模型在跨学科知识整合与高阶逻辑推理任务中的实际效能，为模型能力提供细粒度、可解释的量化分析。

实际应用

ANGO在大型语言模型的研发与部署中具有重要应用价值。其评估结果可直接用于指导模型在中文语境下的能力调优，特别是在行政、法律、经济等专业领域的适应性训练。该数据集支持的动态测试集迭代与季节性评估框架，能够有效缓解数据泄露导致的评估失真，为工业界提供了持续、稳定的模型性能监测工具。此外，其提出的人类价值指标为开发更贴近人类思维模式的对话系统提供了新的优化方向，助力构建更具人性化特质的智能体。

衍生相关工作

ANGO的推出促进了中文评估基准体系的完善与发展。其关键点分类思想与难度量化方法为后续研究提供了重要参考，例如在专业领域评估数据集的构建中，可借鉴其多维度能力映射机制。该数据集启发了对模型错误类型与人类认知偏差关联性的深入探索，推动了如生成式智能体等更具人文特质的人工智能系统的研究。同时，其动态评估框架的设计理念也为其他基准数据的防泄露机制与可持续更新策略提供了实践范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集