t2ance/code-solutions

Name: t2ance/code-solutions
Creator: t2ance
Published: 2026-04-25 02:12:55
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/t2ance/code-solutions

下载链接

链接失效反馈

官方服务：

资源简介：

统一的候选代码解决方案数据集，涵盖LCB（LiveCodeBench）和BCB（BigCodeBench）两个部分，由4个模型生成。

Unified candidate code solutions across LCB (LiveCodeBench) and BCB (BigCodeBench), generated by 4 models.

提供机构：

t2ance

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对代码生成领域主流评测基准的深度整合。具体而言，研究者将来自LiveCodeBench与BigCodeBench两大基准中的候选解题代码进行了统一汇集，这些代码由包括DeepSeek、o4_mini、Qwen2.5-32B及Qwen3-30B在内的四种先进语言模型独立生成。为保障数据质量与一致性，团队将原本分散于七个独立仓库的数据集，通过校验每行的记录数、数据结构及逐行SHA256哈希值（兼容空值容差），在字节级别验证等价性后，合并为一个具有统一配置与切分结构的规范化数据集。

特点

本数据集最显著的特质在于其高度的整合性与可验证性。它将来自两个不同代码评测场景的解题结果统一收纳，支持按模型和基准进行灵活切分，极大便利了跨模型与跨基准的横向比较研究。所有数据均已通过严格的审计流程，确保了合并前后数据记录的完全一致性，为后续的代码生成评估、模型行为分析及裁判模型（LLM-as-Judge）研究提供了坚实可靠的基础。

使用方法

使用者可通过HuggingFace Datasets库便捷地加载所需子集。例如，加载由DeepSeek模型生成、源自LiveCodeBench的数据，只需执行`load_dataset("t2ance/code-solutions", "lcb", split="deepseek")`。该接口支持通过指定配置名（如"lcb"或"bcb"）选择评测基准，并通过切分参数（如"deepseek"、"o4_mini"）筛选目标模型生成结果，从而灵活满足对比实验、集成学习或语言模型能力评测等多样化研究需求。

背景与挑战

背景概述

代码生成领域近年来蓬勃发展，大语言模型在自动补全、程序合成等任务中展现出惊人潜力，然而，如何公平、可重复地评估模型生成的代码质量始终是制约该领域进步的瓶颈。在此背景下，code-solutions数据集于2026年由研究者t2ance创建，旨在统一整合来自LiveCodeBench和BigCodeBench两大权威基准的模型输出。该数据集汇集了deepseek、o4_mini、qwen2_5_32b及qwen3_30b共四种前沿模型针对同一批编程问题的候选解答，为代码生成与验证研究提供了标准化、高可比性的评价素材。其核心研究问题聚焦于如何消除因基准分散、模型输出格式各异导致的评估偏差，从而促进更可靠的自动化代码质量评判。通过将原本分散于七个独立仓库的数据源统一融合，并经过严格的字节级等价校验，code-solutions显著降低了研究者的数据预处理成本，为代码生成领域的LLM-as-Judge范式提供了坚实基础，有望加速该方向的可复现性研究进程。

当前挑战

当前代码生成评估面临的核心挑战在于缺乏统一且经过严格对齐的测试数据集，不同基准间题目标注粒度、解题策略偏好及输出格式各异，导致模型间横向比较困难。code-solutions构建过程中克服了多个技术难关：首先需将源于七个子仓库、格式与列架构各异的代码解答进行对齐融合，设计无空值感知的逐行SHA256哈希校验以确保数据完整性；其次要处理不同模型在代码缩进、注释风格及解题思路上的差异，避免因非逻辑噪声干扰后续评估。此外，维持大规模候选解集的版本一致性，在合并后对原始仓库进行删除前完成彻底的等价验证，也是一项系统性的工程挑战。最终，该数据集直面领域内评估不可复现与基准碎片化的问题，为构建更公平、透明的代码生成评价体系提供了关键底层支撑。

常用场景

经典使用场景

在代码生成与验证的学术前沿，code-solutions数据集通过统一整合LiveCodeBench（LCB）与BigCodeBench（BCB）两大基准中由DeepSeek、o4_mini、Qwen2.5-32B及Qwen3-30B四个模型生成的候选解答，为代码智能研究提供了标准化的多模型对照测试平台。该数据集最经典的使用场景在于评估和对比不同大语言模型在复杂编程任务上的代码生成能力，研究者可便捷地加载任一模型在特定基准上的解答，用于重现实验、分析模型间的性能差异，或作为下游任务（如代码修复、测试生成）的输入语料，极大地简化了跨模型代码质量评估的流程。

实际应用

在工业与工程实践中，code-solutions数据集可作为代码自动生成系统的质量基准与训练素材。软件开发者可利用该数据集中的高质量解答来训练代码补全、bug修复或自动化测试生成工具，通过对比不同模型的输出风格与正确性，遴选最适配研发流程的代码生成引擎。此外，该数据集支持LLM-as-Judge场景，即利用其中一个模型的解答作为参考，评判其他模型输出的质量，从而构建更智能的代码评审流水线，在提升开发效率的同时保障代码规范性与功能正确性。

衍生相关工作

基于code-solutions数据集，学术界已衍生出一系列具有影响力的研究工作。这些工作涵盖代码生成模型的多维度评估方法，例如利用该数据集的统一格式设计新型代码质量度量指标，或构建更精细的代码错误分类体系。另一些研究则聚焦于代码验证任务，通过分析模型间解答的差异性来探索代码语义等价性判断的评判标准。此外，该数据集为代码修复模型的微调和检索增强生成（RAG）系统的后端索引提供了宝贵的数据基础，推动了代码智能生态系统中评估与生成两个环节的良性循环与协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集