DensingLaw-ScalingBench

Name: DensingLaw-ScalingBench
Creator: OpenBMB
Published: 2025-08-04 12:24:51
License: 暂无描述

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/openbmb/DensingLaw-ScalingBench

下载链接

链接失效反馈

官方服务：

资源简介：

DensingLaw-ScalingBench数据集是为了更精确地估计大型语言模型（LLMs）的性能缩放规律而创建的。该数据集包含专门设计用于计算下游任务条件损失的测试实例。数据集包含两种主要任务类型：多项选择题和需要多步骤推理的复杂问题。该数据集适用于估计模型参数大小与条件损失之间关系以及将条件损失映射到下游任务性能的研究。

提供机构：

OpenBMB

创建时间：

2025-07-24

原始信息汇总

DensingLaw-ScalingBench 数据集概述

基本信息

许可证: Apache 2.0
主要语言: 英语 (en)
数据集集合: DensingLaw
大小类别: 10K<n<100K（实例数量）

任务类别

主要任务类别:
- 问答 (question-answering)
- 文本生成 (text-generation)
具体任务ID:
- 多项选择问答 (multiple-choice-qa)
- 开放域问答 (open-domain-qa)

数据来源

原始数据集:
- mmlu
- big-bench-hard
- math
- mbpp
- human-eval

数据集描述

该数据集旨在更准确地评估大型语言模型（LLMs）的性能扩展规律。数据集包含用于计算条件损失的测试实例，强调给定输入指令下输出答案的概率。

数据格式

多项选择题:
- 输入: 问题陈述与多个选项的拼接
- 输出: 问题分析及最终答案标签
复杂推理问题:
- 输入: 需要多步推理的问题陈述（如数学问题）
- 输出: 完整的推理步骤及正确答案

使用方法

损失估计: 使用扩展规律拟合参数大小与条件损失的关系：

L = a * N^(-α) + b * D^(-β)
性能估计: 使用sigmoid函数将条件损失映射到下游任务性能：

S = c / (1 + e^(-γ(L-l))) + d

免责声明

数据集中的推理步骤由GPT-4o自动生成，不保证完全正确或完美。
对于任何问题，GPT-4o提供的解决方案仅代表多种可能推理路径中的一种，不应被视为唯一“正确”方法。
建议用户将这些推理步骤视为评估模型逻辑能力的“软”标签或参考。

引用

bibtex @misc{xiao2024densinglawllms, title={Densing Law of LLMs}, author={Chaojun Xiao and Jie Cai and Weilin Zhao and Guoyang Zeng and Biyuan Lin and Jie Zhou and Zhi Zheng and Xu Han and Zhiyuan Liu and Maosong Sun}, year={2024}, eprint={2412.04315}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2412.04315}, }

搜集汇总

数据集介绍

构建方式

在大型语言模型性能评估领域，DensingLaw-ScalingBench数据集通过整合多个权威基准构建而成，包括MMLU、Big-Bench-Hard、MATH、MBPP和HumanEval等来源。该数据集采用自动化生成技术，由GPT-4o模型生成多步骤推理过程，形成包含指令-答案对的测试实例。构建过程特别注重条件损失的计算，通过精心设计的问题表述和选项组合，确保每个测试实例都能有效评估模型在给定指令下生成正确答案的概率。

使用方法

使用本数据集需采用两阶段估计方法：首先基于缩放定律拟合参数量与条件损失的关系，采用L = a * N^(-α) + b * D^(-β)的数学模型；随后通过S型函数将条件损失映射到下游任务性能，使用S = c / (1 + e^(-γ(L-l))) + d的转换公式。研究人员可通过计算模型在测试实例上的条件损失，准确估计其有效参数量与实际参数量之比，从而实现对大型语言模型性能缩放规律的精确量化评估。

背景与挑战

背景概述

大型语言模型性能评估领域近年来面临规模扩展规律研究的迫切需求，DensingLaw-ScalingBench数据集应运而生。该数据集由清华大学自然语言处理研究团队于2024年创建，核心贡献者包括肖朝军、刘知远和孙茂松等学者。其创新性地提出了LLM密度概念——即等效参数规模与实际参数规模的比值，旨在解决传统缩放定律在条件概率建模方面的局限性。该数据集通过整合MMLU、BigBench-Hard等多个权威基准的测试实例，为准确估计模型性能缩放规律提供了标准化评估框架，对推动大模型高效训练与架构优化具有重要理论价值。

当前挑战

该数据集主要应对大模型性能缩放定律估计中的两大挑战：在领域问题层面，传统基于全序列语言建模损失的评估方法难以精确捕捉指令-答案间的条件概率关系，需要构建专门的条件损失计算框架；在构建过程中，需解决多源数据集（包括数学推理、代码生成等异构任务）的标准化整合问题，同时确保自动生成的推理链标签（由GPT-4o生成）在保持多样性的同时维持逻辑一致性。此外，还需设计能够同时支持多项选择与复杂推理任务的统一评估范式，以适配缩放定律中的双阶段估计算法。

常用场景

经典使用场景

在大型语言模型性能评估领域，DensingLaw-ScalingBench数据集被广泛应用于条件损失计算场景。该数据集通过精心设计的多选题和复杂推理题，支持研究者测量模型在给定指令下生成正确答案的条件概率，为模型密度评估提供标准化测试基准。其独特的任务构造方式能够有效捕捉模型从输入到输出的映射能力，成为衡量语言模型参数效率的核心工具。

解决学术问题

该数据集解决了传统缩放定律研究中全序列语言建模损失的局限性问题，创新性地提出基于条件损失的密度评估框架。通过建立参数规模与条件损失之间的数学映射关系，研究者能够更精确地估算模型的有效参数规模，从而揭示语言模型性能增长的内在规律。这一方法论突破为理解模型缩放效率提供了新的理论视角，推动了缩放定律研究向更精细化的方向发展。

实际应用

在实际应用层面，该数据集为模型开发者和研究者提供了重要的性能诊断工具。企业可利用其评估不同规模语言模型的参数利用效率，指导模型架构优化和资源分配决策。教育机构可借助其多步推理任务设计，开发智能辅导系统的评估模块。此外，该数据集还能支持模型压缩技术的验证，为边缘设备部署高效语言模型提供量化依据。

数据集最近研究