kensho/WILD-raw

Name: kensho/WILD-raw
Creator: kensho
Published: 2026-05-07 16:57:12
License: 暂无描述

Hugging Face2026-05-07 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/kensho/WILD-raw

下载链接

链接失效反馈

官方服务：

资源简介：

WILD-raw是一个大规模项目级别数据集，包含了65个语言模型在27个基准测试（109,566个独特项目）中的完整评估响应，如对话、模型答案、目标和评分器输出。该数据集旨在支持论文《跨基准测试的通用能力成本效益估计》的研究。数据集的主要统计信息包括7,237,945条总（模型，项目）观察数据，覆盖65个模型和27个基准测试。数据集的模式包括模型标识、任务来源、子任务类别、项目ID、得分、输入输出令牌数、完整对话、停止原因、真实目标、模型答案以及评分器输出等字段。

WILD-raw is a Wide-scale Item Level Dataset containing full evaluation responses for 65 language models across 27 benchmarks (109,566 unique items), including conversations, model answers, targets, and scorer output. This dataset accompanies the paper "Cost-Efficient Estimation of General Abilities Across Benchmarks". Key statistics include 7,237,945 total (model, item) observations, covering 65 models and 27 benchmarks. The schema includes fields such as model identifier, source benchmark, subtask/category, item ID, score, input/output tokens, full conversation, stop reason, target, models answer, and scorer output.

提供机构：

kensho

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模评估数据集对于模型性能的精确衡量至关重要。WILD-raw数据集通过系统整合65个语言模型在27个基准测试上的完整评估响应而构建，覆盖了109,566个独特项目。该数据集不仅收录了模型对话、答案及目标真值，还包含了评分器的详细输出，形成了总计7,237,945条（模型，项目）观测记录，其构建过程注重数据的全面性与结构化表征，为深入分析模型行为提供了坚实基础。

特点

WILD-raw数据集以其广泛的覆盖范围和细粒度的数据记录而著称。它囊括了多样化的基准任务，如MMLU和GSM8K等，每个项目均以MD5哈希标识确保唯一性。数据集不仅提供二值化正确性评分，还详细记录了输入与输出令牌数量、停止原因以及完整的对话JSON结构，这种多层次的信息整合使得研究者能够从项目级别深入探究模型的表现差异与内在机制。

使用方法

利用WILD-raw数据集时，研究者可通过加载Parquet格式的数据文件轻松访问全部响应记录。通过解析对话字段中的JSON内容，可以重构完整的交互序列，结合评分输出与元数据，支持对模型性能的细致评估。该数据集适用于大规模语言模型的基准测试、项目响应分析以及评估方法的比较研究，为自然语言处理领域的实证探索提供了丰富资源。

背景与挑战

背景概述

在人工智能领域，大规模语言模型的评估与基准测试已成为推动技术发展的核心环节。WILD-raw数据集由Kensho机构于2025年发布，旨在提供广泛且细粒度的项目级别评估数据。该数据集汇集了65个语言模型在27个基准测试上的完整响应记录，涵盖超过七百万条观测数据，为研究人员深入分析模型性能、泛化能力及偏差问题提供了宝贵资源。其创建不仅响应了当前对透明、可复现评估框架的迫切需求，更通过详尽的对话、答案及评分输出，促进了评估方法论从宏观指标向微观项目级别的演进，对自然语言处理领域的标准化进程产生了深远影响。

当前挑战

WILD-raw数据集致力于解决语言模型评估中细粒度性能分析的挑战，其核心问题在于如何系统量化模型在不同任务、项目上的具体表现，并揭示模型行为的一致性及局限性。构建过程中，数据集面临多重挑战：首先，整合异构的基准测试（如MMLU、GSM8K等）需统一数据格式与评分标准，确保跨任务可比性；其次，处理大规模原始响应（包括对话、答案及元数据）涉及高效存储与解析，以维持数据的完整性与可访问性；此外，保证项目标识的唯一性（通过MD5哈希）及评分的一致性，需克服数据清洗与验证的复杂性。这些挑战共同凸显了构建可靠、大规模评估数据集的艰巨性。

常用场景

经典使用场景

在自然语言处理领域，大规模模型评估是推动技术发展的核心环节。WILD-raw数据集以其详尽的模型响应记录，为研究者提供了经典的使用场景：系统性地比较不同语言模型在多样化基准测试中的表现。通过整合65个模型在27个基准上的完整对话与评分数据，该数据集支持对模型能力进行细粒度分析，例如在数学推理、常识问答等任务中，深入探究模型生成答案的准确性与一致性，从而为模型选择与优化提供实证依据。

解决学术问题

该数据集有效解决了大语言模型评估中常见的学术研究问题，如模型性能的可靠度量与跨任务泛化能力分析。传统评估往往局限于汇总分数，而WILD-raw提供了项目级别的完整响应，使得研究者能够追溯错误根源，识别模型在特定知识领域的薄弱环节。其意义在于促进了评估方法的透明化与可复现性，为理论框架如项目反应理论的应用提供了数据基础，从而深化了对模型行为内在机制的理解。

衍生相关工作

围绕WILD-raw数据集，已衍生出多项经典研究工作。例如，基于其项目级数据，研究者开发了新型基准测试框架，整合多维度评估指标以更全面反映模型能力。同时，该数据集激发了关于评估偏差与公平性的探讨，促进了跨模型比较算法的创新。这些工作不仅扩展了数据集的应用边界，还推动了评估标准向更细致、更科学的方向演进，为后续大规模模型研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集