New-AI-Benchmark

github2025-07-17 更新2025-11-21 收录

下载链接：

https://github.com/standardgalactic/New-AI-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

包含100个基准测试问题的集合，用于测试AI系统的能力。问题目前存储在加密文件中，加密密钥和解密版本将于2026年1月2日发布。包含一个描述相关赌注的Bet.html文件。

This dataset comprises a collection of 100 benchmark test questions developed for evaluating the capabilities of AI systems. Currently, the questions are stored in encrypted files, and the corresponding encryption keys and decrypted versions will be released on January 2, 2026. Furthermore, the dataset includes a Bet.html file detailing the relevant stakes.

创建时间：

2025-11-20

原始信息汇总

New-AI-Benchmark 数据集概述

数据集基本信息

数据集名称：New-AI-Benchmark
发布日期：2026年1月2日
维护者：Ernest Davis (davise@cs.nyu.edu)

数据集内容

问题数量：包含100个基准测试问题
用途：用于测试AI系统的能力
当前状态：问题文件目前处于加密状态

文件说明

主要文件

推荐使用文件：AIBenchmarkProblemsFinal.docx
不推荐使用文件：AIBlenchmarkOProblems.docx（不含"Final"版本）

辅助文件

Bet.html：描述相关赌注的文件

版本历史说明

文件版本差异

初始版本：AIBlenchmarkOProblems.docx（2025年3月24日前完成）
最终版本：AIBenchmarkProblemsFinal.docx（2025年6月准备，7月16日上传）

版本更新原因

初始版本中约25个问题存在严重错误
最终版本修正了这些错误，确保问题质量
保留初始版本用于验证修改仅为修正错误，不涉及AI技术状态变化

重要时间节点

解密时间：2026年1月2日发布加密密钥和非加密版本
问题准备截止：2025年3月24日（赌注相关截止日期）
最终版本准备：2025年6月
最终版本上传：2025年7月16日

搜集汇总

数据集介绍

构建方式

在人工智能基准测试领域，New-AI-Benchmark的构建过程体现了严谨的学术态度。该数据集最初于2025年3月24日前完成初版编制，包含100个加密的基准测试问题。随后在答案准备阶段发现约四分之一题目存在缺陷，遂于同年6月重新修订形成最终版本。为确保透明度，原始版本与修正版本均予以保留，所有修改仅限于错误修正而未涉及对人工智能技术发展的适应性调整。

特点

作为评估人工智能系统能力的重要工具，该数据集具有鲜明的技术特征。其核心由100个经过精心设计的基准测试问题构成，目前处于加密状态以待2026年1月2日公开。数据集采用双重版本管理机制，既保留了初始草案作为修改依据，又提供最终修正版本确保问题质量。这种设计既维护了学术研究的可追溯性，又保证了评估内容的准确性与公正性。

使用方法

针对该基准数据集的应用，研究者需遵循特定的使用规范。正式启用前应确认使用AIBenchmarkProblemsFinal.docx作为问题来源，避免使用未标注Final的初始版本。数据集解密密钥及未加密版本将于指定日期统一发布，研究人员可通过电子邮件与负责人就技术细节进行沟通。这种分阶段开放模式既保障了研究进程的有序性，又为学术交流提供了有效渠道。

背景与挑战

背景概述

New-AI-Benchmark数据集由纽约大学计算机科学家Ernest Davis主导创建，预计于2026年初正式发布。该基准测试集包含100项精心设计的评估题目，旨在系统检验人工智能系统在复杂认知任务中的综合能力。其核心研究目标在于建立可量化的智能评估体系，推动人工智能从单一任务执行向通用智能方向发展，对人工智能基础理论研究和应用开发具有重要指导意义。

当前挑战

该数据集构建过程中面临严峻的质量控制挑战，初期版本中近四分之一题目存在设计缺陷，需经过多轮修订确保问题设置的严谨性。在领域问题层面，如何设计能准确衡量AI系统综合认知能力的评估标准仍是核心难题，既需避免特定领域的偏向性，又要保证测试结果的可解释性。同时维护评估框架的前瞻性以适应快速演进的技术环境，也是持续面临的挑战。

常用场景

经典使用场景

在人工智能系统评估领域，New-AI-Benchmark数据集通过精心设计的100个基准问题，为衡量AI系统的综合能力提供了标准化测试平台。这些问题覆盖了推理、知识表示和问题解决等多个关键维度，旨在检验模型在复杂情境下的表现。该数据集的设计理念源于对现有基准测试局限性的反思，致力于推动更全面、严谨的评估体系发展。

衍生相关工作

围绕该数据集衍生的经典工作主要体现在评估方法论的研究领域。其独特的双版本问题设计启发了后续研究者对基准测试动态修正机制的探索，推动了如动态基准评估框架等创新方法的出现。相关研究还延伸至加密测试数据的可信执行环境构建，为人工智能评估社区的标准化建设提供了重要借鉴，催生了多个关注评估伦理与效度的后续研究项目。

数据集最近研究