five

t2ance/selection-lcb-baseline

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/t2ance/selection-lcb-baseline
下载链接
链接失效反馈
官方服务:
资源简介:
LCB Selection Baseline数据集是一个用于代码验证和大型语言模型(LLM)判断的数据集,包含多个配置(如qwen3_30b、qwen2_5_32b、deepseek、o4_mini),每个配置下有不同的数据分割(train、val、test)。数据集最初来自三个独立的仓库,后统一为一个配置+分割的结构。o4_mini配置设计上没有训练分割,仅用于OOD评估。数据集已通过字节行级别的等价性验证,确保数据的一致性和完整性。

The LCB Selection Baseline dataset is designed for code verification and LLM judgment, featuring multiple configurations (e.g., qwen3_30b, qwen2_5_32b, deepseek, o4_mini) with different splits (train, val, test) under each configuration. Originally from three separate repositories, the dataset was later unified into a config+split structure. The o4_mini configuration has no train split by design, intended for OOD evaluation. The dataset has undergone byte-row-level equivalence verification to ensure data consistency and integrity.
提供机构:
t2ance
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自LiveCodeBench上多个法官模型对候选代码对的选择决策推理结果,于2026年4月24日由三个独立仓库(t2ance/selection_lcb_30b_{train,val,test})迁移整合为统一的配置文件与分割结构。每个配置项对应一个法官与候选代码源模型,分割部分涵盖训练、验证和测试集。为确保数据完整性,通过行计数、模式及逐行SHA256哈希(考虑空值)验证了字节级等价性,并在项目仓库中保留了审计脚本与运行日志。
特点
数据集按模型配置分为qwen3_30b、qwen2_5_32b、deepseek和o4_mini四个子集,其中o4_mini作为领域外评估源设计仅包含验证和测试集。数据以Parquet格式高效存储,各子集均提供明确的训练、验证和测试分割,便于开展基于代码验证与法官选择任务的实验。其结构清晰,支持多模型间的选择决策性能比较。
使用方法
用户可通过HuggingFace的datasets库便捷加载,例如使用`load_dataset("t2ance/selection-lcb-baseline", "qwen3_30b", split="val")`获取特定模型配置的验证集。数据集内嵌于LiveCodeBench生态,适用于评估法官模型在代码对选择任务中的推理能力,支持训练、验证与测试的全流程研究。
背景与挑战
背景概述
该数据集由t2ance于2026年4月创建,聚焦于代码验证场景下大语言模型作为评判者的选择能力评估。在大型语言模型辅助代码生成任务中,模型常需从多个候选代码中选出最优实现,然而现有基准缺乏对模型这种选择决策行为的系统性评测。为此,研究团队以LiveCodeBench为基础,构建了包含多源模型(如Qwen3 30B、DeepSeek、o4_mini等)选择决策结果的数据集,旨在推动代码验证与LLM评判方向的研究。该数据集通过统一配置与分割结构,为对比不同规模、不同来源模型的代码选择偏好提供了标准化平台,对代码智能、模型对齐及安全验证等领域具有重要参考价值。
当前挑战
数据集面临的核心挑战包括:一是代码选择任务本身具有高度复杂性,模型需在语义等价、性能差异细微的候选代码中做出正确判断,这对模型的代码理解与偏好对齐能力提出了极高要求;二是构建过程中,为确保数据质量,团队对来自三个独立仓库的数据进行了逐字节行级校验,包括行计数、模式及每行SHA256哈希的一致性验证,这一过程需避免空值敏感错误并保证数据迁移的零损失。此外,不同模型配置间训练、验证与测试集的划分不统一(如o4_mini缺少训练集),增加了跨模型公平比较与迁移学习的难度。
常用场景
经典使用场景
在代码生成与验证领域,selection-lcb-baseline数据集扮演着评判代码正确性的关键角色。该数据集汇聚了来自多种预训练语言模型(如Qwen3、Qwen2.5、DeepSeek、O4-mini等)对LiveCodeBench中候选代码对的选择决策结果,为研究者提供了一套标准化的代码验证与选择基准。其典型使用场景是利用大型语言模型作为评判者(LLM-as-Judge),评估模型在代码生成任务中甄别最优解的能力,进而推动代码智能验证技术的进步。
解决学术问题
该数据集精准回应了代码合成研究中长期存在的验证瓶颈——如何可靠地评估自动生成代码的正确性与优劣。通过系统性地汇集不同源模型的选择决策轨迹,它使学术界得以深入剖析大型语言模型在代码评判中的偏差与局限性,为构建更鲁棒、更公正的代码验证指标体系提供了实证基础。这项贡献不仅深化了我们对模型内在推理机制的理解,更引领了代码智能验证研究从生成导向向验证导向的重要范式转变。
衍生相关工作
该数据集催生了一系列开创性的后续研究,包括基于对比学习的代码选择偏好建模、跨模型验证一致性分析,以及面向少样本场景的代码评判知识迁移方法。此外,研究团队基于该数据集开发的审计脚本与融合流程已成为代码验证数据集构建的标杆范式,其双字节行级等价性验证方法(SHA256与空值感知校验)被多个后续项目广泛采纳,有力推动了代码智能验证领域的数据基础设施标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作