selection_lcb_sft_warmup_forcing

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/t2ance/selection_lcb_sft_warmup_forcing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由LLM评判器评估的多个模型解决方案的选择轨迹。

创建时间：

2026-01-23

原始信息汇总

数据集概述

基本信息

数据集名称: CodeRM LLM Judge Trajectories (Multi-Model)
托管地址: https://huggingface.co/datasets/t2ance/selection_lcb_sft_warmup_forcing
许可证: Apache 2.0
数据规模: 1K<n<10K
标签: code-verification, llm-judge, multi-model, selection

数据集描述

该数据集包含由LLM法官评估的多个模型解决方案的选择轨迹。

数据配置与划分

数据集包含以下4个配置（划分），每个配置对应一个模型：

配置名称	对应模型	训练集轨迹数量	数据文件路径
`o4_mini`	o4_mini	774	`data/o4_mini/*.parquet`
`qwen3_30b`	qwen3_30b	1,525	`data/qwen3_30b/*.parquet`
`qwen2.5_32b`	qwen2.5_32b	1,861	`data/qwen2.5_32b/*.parquet`
`deepseek`	deepseek	704	`data/deepseek/*.parquet`

轨迹总数: 4,864 条，覆盖4个模型。

使用方法

python from datasets import load_dataset

加载所有划分

ds = load_dataset("t2ance/selection_lcb_sft_warmup_forcing")

加载特定划分

ds = load_dataset("t2ance/selection_lcb_sft_warmup_forcing", split="o4_mini")

搜集汇总

数据集介绍

构建方式

在代码验证与模型评估领域，该数据集通过集成多个先进大语言模型的解决方案构建而成。具体而言，研究者收集了来自o4_mini、qwen3_30b、qwen2.5_32b以及deepseek等模型的代码生成轨迹，并利用大语言模型作为评判者对这些轨迹进行系统性评估与筛选。整个过程聚焦于模型在代码任务中的表现差异，最终形成了涵盖不同模型输出的轨迹集合，为后续分析提供了多源数据基础。

特点

该数据集的核心特征在于其多模型轨迹的集成性与针对性。数据集囊括了四个不同模型的代码解决方案轨迹，总计达4,864条，每条轨迹均经过大语言模型评判者的专业评估。这种设计使得数据集能够反映不同模型在代码生成任务中的行为模式与性能差异，为研究模型选择、轨迹优化及评估方法提供了丰富的对比素材。数据以分模型配置的形式组织，便于研究者按需调用特定模型的轨迹进行分析。

使用方法

在实践应用中，该数据集可通过Hugging Face的datasets库便捷加载。用户可以选择一次性加载所有模型配置的轨迹数据，亦可根据研究需求，通过指定split参数单独加载如o4_mini等特定模型的轨迹。这种灵活的访问方式支持用户进行跨模型比较或深入分析单一模型的轨迹特性，适用于代码验证、模型评估及强化学习等研究场景。

背景与挑战

背景概述

在大型语言模型（LLM）与代码生成领域，如何有效评估并选择模型生成的解决方案，已成为提升模型性能与可靠性的核心研究议题。数据集'selection_lcb_sft_warmup_forcing'应运而生，由研究人员或团队t2ance于近期构建并发布，其核心研究问题聚焦于利用LLM作为评判者，对来自多个模型的代码解决方案进行轨迹选择与验证。该数据集通过整合如o4_mini、qwen3_30b等不同模型的轨迹数据，为代码验证与多模型比较提供了实证基础，推动了自动化代码评估与模型优化方向的发展，对增强LLM在编程辅助中的实际应用具有显著影响力。

当前挑战

该数据集旨在解决代码验证与多模型解决方案选择中的关键挑战，即如何通过LLM评判机制，从异构模型输出中识别最优或最可靠的代码轨迹，这涉及处理代码语义的复杂性、评估标准的统一性以及模型间性能差异的量化问题。在构建过程中，挑战包括多模型轨迹数据的采集与对齐，需确保不同模型生成解决方案的格式一致性与可比性；同时，LLM评判的偏差控制与轨迹标注的准确性也构成重要难点，要求设计稳健的评估框架以保障数据质量。

常用场景

经典使用场景

在代码验证与大型语言模型评估领域，selection_lcb_sft_warmup_forcing数据集为研究者提供了多模型解决方案的轨迹数据，这些数据源自LLM评判器的评估过程。该数据集常用于训练或微调模型选择算法，特别是在强化学习与监督微调框架中，通过分析不同模型生成的代码解决方案及其评判轨迹，优化模型在代码生成任务中的决策能力与泛化性能。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，主要集中在模型选择策略的优化、LLM评判器的改进以及代码生成轨迹的分析方法上。例如，研究者利用这些轨迹数据开发了新的强化学习算法，以增强模型在代码任务中的探索能力；同时，它也促进了多模型集成与对抗性评估技术的进展，为代码验证领域的模型比较与基准测试提供了重要参考。

数据集最近研究