ABench
收藏github2025-07-02 更新2025-07-03 收录
下载链接:
https://github.com/inclusionAI/ABench
下载链接
链接失效反馈官方服务:
资源简介:
ABench是一个不断发展的开源基准测试套件,旨在严格评估和增强大型语言模型(LLMs)在复杂跨领域任务上的表现。通过针对当前模型的弱点,ABench在物理、精算科学、逻辑推理、法律和心理学等高难度专业领域提供了系统的挑战。
ABench is an evolving open-source benchmarking suite designed to rigorously evaluate and enhance the performance of large language models (LLMs) across complex interdisciplinary tasks. By targeting the weaknesses of current models, ABench offers a systematic challenge in high-difficulty professional fields such as physics, actuarial science, logical reasoning, law, and psychology.
创建时间:
2025-06-30
原始信息汇总
ABench数据集概述
🌟 数据集简介
ABench是一个开源的基准测试套件,旨在严格评估和提升大型语言模型(LLMs)在复杂跨领域任务上的表现。该数据集专注于高难度专业领域,包括物理学、精算学、逻辑推理、法学和心理学。
🎯 核心目标
- 填补评估空白:针对表现不佳的问题类型设计高区分度的评估任务。
- 建立统一标准:为多领域LLM评估创建可靠、可比较的基准。
- 扩展能力边界:通过具有挑战性的创新问题推动知识系统和推理机制的持续优化。
📊 数据集发布状态
| 领域 | 描述 | 状态 |
|---|---|---|
| 物理学 | 500个大学/竞赛级别的物理问题(400个静态问题 + 100个动态参数变体),涵盖经典力学到现代物理学的10多个领域 | ✅ 已发布 |
| 精算学 | 精选的精算考试问题,涵盖核心主题:概率统计、金融数学、寿险/非寿险、精算模型和风险管理 | 🔄 准备中 |
| 逻辑推理 | 来自权威测试(LSAT/GMAT/GRE/SBI/中国公务员考试)的高区分度逻辑推理问题 | 🔄 准备中 |
| 心理学 | 心理学案例研究和研究问题(客观/主观),评估对人类行为和理论的理解 | 🔄 准备中 |
| 法学 | 权威司法考试材料,涵盖核心法律领域:刑事/民事/行政/程序/国际法 | 🔄 准备中 |
📜 许可证
- 许可证类型:Apache 2.0
搜集汇总
数据集介绍

构建方式
在大型语言模型评估领域,ABench数据集的构建采用了多学科交叉的严谨方法。研究团队精选物理学、精算学、逻辑推理、法学和心理学等高难度专业领域的权威素材,通过专家验证确保问题质量。以物理学子集为例,包含400道静态题目和100道动态参数化变体,覆盖经典力学到现代物理等十余个分支领域,题目来源涵盖大学课程及专业竞赛层级。
特点
该数据集最显著的特点在于其针对性的难度设计和领域覆盖。通过系统分析当前语言模型的薄弱环节,ABench专门设计具有高区分度的评估任务,每个领域的问题都经过难度分级和类型标注。特别是采用静态题目与动态参数化变体相结合的创新形式,既保证基准稳定性又增强测试维度,为模型能力评估提供多维度的测量标尺。
使用方法
使用ABench进行模型评估时,研究者可按照领域分类选择对应子集。数据集提供标准化的评估协议和计分规则,建议采用分层抽样方式确保测试覆盖面。对于物理学等已发布子集,可通过官方提供的参数化引擎生成衍生题目,实现测试场景的动态扩展。评估过程需严格遵循问题原始表述,以保持跨模型比较的公平性。
背景与挑战
背景概述
ABench数据集由开源社区于近年推出,旨在为大型语言模型(LLMs)提供跨领域复杂任务的系统性评估框架。该数据集聚焦物理学、精算学、逻辑推理、法学及心理学等高难度专业领域,通过设计差异化评估任务,填补现有模型在专业知识和复杂推理能力上的评测空白。其核心研究问题在于建立统一、可靠的多领域评估标准,推动语言模型知识体系与推理机制的持续优化。作为首个针对专业领域深度评测的开源基准套件,ABench为LLM能力边界的拓展提供了重要研究工具。
当前挑战
ABench数据集面临双重挑战:在领域问题层面,需解决专业领域知识深度与广度平衡问题,例如物理学科需同时覆盖经典力学与现代物理学的差异化题型;构建过程中,动态参数化题目生成、跨学科专家标注一致性保障,以及权威考试材料版权合规性等问题均对数据集质量提出严格要求。多领域评估标准的统一性设计,特别是法学与心理学等主观性较强学科的量化和客观化,成为亟待突破的技术难点。
常用场景
经典使用场景
在大型语言模型(LLM)的研究与开发中,ABench数据集因其跨领域、高难度的特性,成为评估模型综合能力的黄金标准。研究者们利用该数据集中的物理、法律、心理学等专业领域问题,系统性地测试模型在复杂场景下的知识掌握程度和逻辑推理能力。特别是在模型优化过程中,ABench提供的差异化评估任务能够精准定位模型的薄弱环节,为后续的针对性改进提供数据支持。
解决学术问题
ABench数据集有效解决了当前LLM评估中存在的领域覆盖不足、难度层次单一等关键问题。通过引入物理学竞赛题、司法考试材料等高专业性内容,该数据集填补了模型在跨学科复杂任务上评估的空白。其动态参数化问题设计更进一步推动了模型在知识迁移和适应性推理方面的研究,为建立统一的LLM评估标准提供了重要基础。
衍生相关工作
围绕ABench数据集已产生多项重要研究,包括跨领域知识迁移框架、动态参数化问题生成算法等。部分团队利用其法律模块开发了司法文书自动生成系统,而物理题库则催生了新型的解题推理模型。这些衍生工作不仅验证了数据集的科研价值,也推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



