Skywork-OR1-7B-Preview_eval_118b

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-dev/Skywork-OR1-7B-Preview_eval_118b

下载链接

链接失效反馈

官方服务：

资源简介：

评估数据集，包含预计算的模型输出，用于LiveCodeBenchv5_official基准测试。数据集提供了平均准确度、单次运行准确度、解决的问题数和总问题数等评估结果。

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，Skywork-OR1-7B-Preview_eval_118b数据集的构建基于预计算模型输出，专门用于系统性评估大语言模型在编程任务上的表现。该数据集通过整合LiveCodeBenchv5_official基准中的279道编程问题，对模型生成的代码解决方案进行自动化执行与结果验证，确保评估过程的可重复性与客观性。

特点

该数据集的核心特点体现在其高度结构化的评估框架与精确的量化指标。数据集收录了模型在LiveCodeBenchv5_official测试集上的详细输出结果，包括平均准确率（36.92%）及单次运行中解决的问题数量（103/279）。其设计聚焦于代码功能的正确性验证，为模型性能分析提供了透明且可追溯的数据支持。

使用方法

研究人员可通过该数据集直接对比模型在代码生成任务上的性能，无需重新运行推理过程。使用时需加载预计算的输出结果与基准标签进行匹配，计算准确率、错误类型分布等指标。该数据集适用于模型迭代验证、跨模型性能对比研究，以及编程能力评估范式的开发与优化。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，大规模语言模型（LLM）的评估成为自然语言处理领域的核心议题。Skywork-OR1-7B-Preview_eval_118b数据集由mlfoundations-dev团队构建，旨在为模型性能提供标准化评估基准。该数据集聚焦于代码生成与程序理解任务，通过LiveCodeBenchv5_official等测评框架，系统性地检验模型在复杂编程场景中的表现，为研究社区提供了关键的数据支撑与比较依据。

当前挑战

该数据集致力于解决代码生成模型在泛化性与准确性方面的评估挑战，尤其在跨语言、跨任务场景下的稳健性测评。构建过程中，需应对代码语义多样性、评测指标设计以及计算资源优化等多重困难，确保评估结果既全面又可靠。

常用场景

经典使用场景

在大型语言模型评估领域，Skywork-OR1-7B-Preview_eval_118b数据集作为预计算模型输出的基准测试工具，主要用于系统性能验证与对比分析。研究者通过该数据集可精准评估模型在代码生成与逻辑推理任务中的表现，特别是在LiveCodeBenchv5_official框架下，其36.92%的平均准确率为模型优化提供了量化依据。

衍生相关工作

围绕该数据集衍生的经典工作包括动态测试集扩展方法研究、多模态代码评估框架构建，以及基于评估结果的模型微调策略优化。这些研究进一步推动了CodeBLEU评分体系与人类偏好对齐技术的融合发展，为代码生成领域的评估范式革新奠定基础。

数据集最近研究