kensho/WILD

Name: kensho/WILD
Creator: kensho
Published: 2026-05-07 16:57:01
License: 暂无描述

Hugging Face2026-05-07 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/kensho/WILD

下载链接

链接失效反馈

官方服务：

资源简介：

WILD（广域项目级别数据集）是一个大规模评估响应矩阵，包含65个语言模型在27个基准测试（163个子任务，109,566个独特项目）上的项目级二进制得分。每行记录一个模型是否正确回答了特定评估项目，以及令牌使用情况。该数据集旨在配合论文《跨基准通用能力成本效益估算》使用。

WILD (Wide-scale Item Level Dataset) is a large-scale evaluation response matrix containing item-level binary scores for 65 language models across 27 benchmarks (163 subtasks, 109,566 unique items). Each row records whether a model answered a specific evaluation item correctly, along with token usage. The dataset accompanies the paper Cost-Efficient Estimation of General Abilities Across Benchmarks.

提供机构：

kensho

搜集汇总

数据集介绍

构建方式

在大规模语言模型评估领域，WILD数据集通过系统化整合27个主流基准测试的163个子任务，构建了一个覆盖109,566个独特评估项目的响应矩阵。该数据集采集了65个参数量从0.5B到72B不等的语言模型对每个项目的二进制正确性评分，并同步记录了输入与输出的令牌消耗量，形成了总计超过723万条观测记录的结构化数据框架。

特点

WILD数据集的核心特征体现在其前所未有的规模与细粒度维度，不仅囊括了从常识推理到专业学科的广泛知识领域，更通过统一的评分标准实现了跨模型性能的横向对比。数据集采用项目级别的响应记录方式，使得研究者能够深入分析模型在特定任务类型上的能力边界，同时提供的令牌使用数据为评估计算效率提供了关键依据。

使用方法

研究人员可通过加载标准化的Parquet格式数据，利用分组聚合操作快速计算模型在特定任务或整体基准上的平均准确率。数据集支持与原始对话记录进行关联分析，便于深入探究模型错误模式与响应生成质量。这种设计使得WILD既能支持宏观的模型能力排名研究，也能服务于微观的项目难度分析与偏差检测。

背景与挑战

背景概述

在大型语言模型（LLM）评估领域，传统基准测试往往局限于模型层面的聚合分数，难以深入剖析模型在具体任务项上的微观表现差异。WILD（Wide-scale Item Level Dataset）数据集应运而生，由Kensho的研究团队于2025年构建并发布。该数据集的核心研究目标在于提供一个细粒度的、项目级别的评估响应矩阵，旨在系统性地量化与比较不同规模与架构的语言模型在多样化认知任务上的精确能力。它汇聚了65个模型在27个主流基准测试（涵盖163个子任务，共计超过10万个独特项目）上的二进制正确性评分，为模型诊断、能力溯源以及评估方法论的基础研究提供了前所未有的高分辨率数据支撑，显著推动了评估科学从宏观比较向微观机理探索的范式转变。

当前挑战

WILD数据集致力于解决大语言模型评估中细粒度能力诊断的核心挑战。传统评估常因使用任务或子任务层面的平均准确率而掩盖模型在特定知识领域或推理类型上的具体缺陷，WILD通过提供项目级别的响应数据，旨在揭示模型表现异质性的深层原因，例如为何某些模型在代数推理上卓越却在常识问答中表现平平。在构建过程中，研究团队面临多重技术挑战：首先，需要大规模、自动化地协调与运行65个异构模型在超过10万个评估项目上的推理，并确保实验环境与评分标准的一致性；其次，原始评估项目来源多样、格式不一，需进行复杂的清洗、去重与标准化处理以形成统一的结构化模式；最后，生成包含七百多万条观测记录的超大规模矩阵，对数据存储、校验与高效访问提出了严峻的工程要求。

常用场景

经典使用场景

在大规模语言模型评估领域，WILD数据集为研究者提供了一个标准化的基准测试平台。该数据集整合了27个主流评测基准的163个子任务，覆盖了从常识推理到专业学科的广泛领域。通过记录65个不同规模语言模型在超过十万个独立评测项目上的二进制得分，研究者能够系统性地分析模型在不同任务类型上的性能分布，从而揭示模型能力的共性与差异。这种细粒度的项目级响应矩阵为模型间的横向比较与纵向演进分析奠定了数据基础。

实际应用

在产业实践中，WILD数据集为模型选型与部署提供了关键决策依据。企业技术团队能够依据模型在特定领域（如医疗诊断、金融分析、代码生成）的细粒度表现，选择最适合业务场景的模型架构。该数据集还支持计算效率分析，通过关联模型准确率与token消耗量，为平衡性能与推理成本提供了量化参考。此外，其涵盖的化学、法律等专业领域数据，为垂直行业的大模型能力校准提供了宝贵的基准数据。

衍生相关工作

基于WILD数据集的丰富信息，学术界已衍生出多项重要研究工作。部分研究聚焦于模型能力图谱的构建，通过多维标度分析揭示不同架构模型在能力空间中的分布规律。另有工作利用该数据集的细粒度响应矩阵，开发了基于项目反应理论的模型诊断工具，能够识别特定模型在逻辑推理或专业术语理解方面的系统性缺陷。这些研究不仅深化了对大模型能力本质的理解，也为下一代评估基准的设计提供了理论指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集