twangodev/devpost-hacks-judgments

Name: twangodev/devpost-hacks-judgments
Creator: twangodev
Published: 2026-05-02 07:56:03
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/twangodev/devpost-hacks-judgments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Devpost Hackathon Judgments，主要用于研究用途，包含了对黑客马拉松项目提交的成对LLM-judge追踪。每一行数据都是一个单聊格式的对话，其中助手比较两个项目并选择较强的一个（或TIE），并附有推理追踪。数据集包含两种不同的模型（Qwen/Qwen3.5-27B和Qwen/Qwen3.5-4B）的判决结果，总计63,044行。数据集的配置包括多个黑客马拉松的特定配置，以及一个默认的all配置，包含所有行。数据集的模式包括多个字段，如messages、judgment_id、pair_id等。数据集的使用方法、注意事项、来源和许可信息也在README中详细说明。

The dataset is named Devpost Hackathon Judgments and is intended for research use only. It contains pairwise LLM-judge traces over hackathon project submissions. Each row is a single chat-format conversation where the assistant compares two projects and picks the stronger one (or TIE), with a reasoning trace. The dataset includes judgments from two different models (Qwen/Qwen3.5-27B and Qwen/Qwen3.5-4B), totaling 63,044 rows. The dataset configurations include per-hackathon settings and a default all config that combines all rows. The schema includes fields such as messages, judgment_id, pair_id, etc. The README also provides detailed instructions on loading the dataset, caveats, sources, and licensing information.

提供机构：

twangodev

搜集汇总

数据集介绍

构建方式

该数据集基于来自Devpost平台多个黑客松的项目提案构建而成。研究者利用两个不同规模的语言模型（Qwen3.5-27B和Qwen3.5-4B），在完全相同的SGLang推理配置下，对成对项目进行比较和评判。每一对项目均以A/B和B/A两种顺序呈现给两个模型，确保结果的对称性与可比较性。最终数据以聊天对话格式记录，包含系统提示、用户指令与助手的推理过程及裁决结果，同时保留了审判ID、模型标识、令牌消耗等关键元数据。

特点

数据集的核心特点在于其独特的成对比较结构与双模型并行评判机制。每一条记录都包含完整的推理链，使得研究者可以深入分析模型在比较判断中的决策逻辑。此外，数据集内置了显著的位置偏差现象——27B模型表现出明显的A位置偏好，而4B模型则更为均衡，这为研究位置偏差提供了天然的对照样本。更大的模型虽然更稳定，但较小的模型反而产生了更长的推理序列，并因输出长度限制而出现了更高的无效判决率。

使用方法

用户可通过HuggingFace Datasets库直接加载该数据集，支持加载全集或按黑客松赛事进行分片筛选。加载后的数据以聊天消息格式呈现，可直接用于监督指令微调或知识蒸馏任务。研究者还可以通过过滤model字段来单独分析某个模型的判决行为，或利用pair_id字段追踪同一项目对在不同模型下的表现差异。这些数据特别适用于比较裁判微调、位置偏差分析、推理轨迹研究以及不同规模模型的判决一致性对比等科研用途。

背景与挑战

背景概述

Devpost Hackathon Judgments数据集由研究者twangodev于近期创建，旨在捕捉大规模语言模型（LLM）作为评审员在黑客松项目评选中展现的推理轨迹与比较判断。该数据集围绕一个核心研究问题：不同规模的LLM（如27B与4B参数模型）在成对项目比较中如何表现出偏好偏差、推理效率及一致性。数据源自多个知名黑客松赛事，如Cal Hacks、TreeHacks等，共计超过六万条对话记录。每一条记录均包含完整的思考链与最终裁决，为分析模型内在偏差、推理模式及评测鲁棒性提供了独特视角。其对LLM作为自动评审工具的可靠性研究、模型蒸馏与微调策略的优化，以及异构模型间行为对比分析等领域产生了重要影响。

当前挑战

该数据集着力解决的领域挑战在于：LLM作为评审员在实际应用中常表现出位置偏见、输出不一致及推理冗余等问题，导致自动评估结果偏离人类判断基准。具体而言，27B模型展现出明显的A位置偏好，而4B模型虽更平衡却具有更高的无效裁决率，凸显了模型规模与输出质量间的不对称关系。构建过程中面临的挑战包括：确保同一项目对在不同顺序下均被双重评审以控制变量；处理超长上下文窗口导致的请求丢弃问题；以及生成的裁决仅为模型意见而非人工黄金标准，缺乏权威验证。这些挑战要求研究者在利用该数据进行微调或偏差分析时，审慎审视模型输出的内在噪声与局限性。

常用场景

经典使用场景

Devpost Hackathon Judgments数据集汇聚了来自多个知名黑客松（如Cal Hacks、TreeHacks、HackGT等）的项目提交记录，并由Qwen3.5-27B和Qwen3.5-4B两个大语言模型以成对比较（pairwise comparison）的形式进行评判。每个样本均包含完整的对话式推理轨迹，模型首先输出思考链（reasoning trace），再给出A胜、B胜或平局的裁决。这一设计使得数据集天然适用于监督微调（SFT）和知识蒸馏研究，研究人员可基于模型生成的推理过程与最终判断来微调较小模型，或训练一个能模仿大型评判者行为的轻量级裁判。同时，由于同一项目对在正反两种顺序下均被两个不同规模的模型评判，该数据集也成为了研究位置偏差（position bias）和模型规模对评判一致性影响的理想实验平台。

衍生相关工作

该数据集作为构建LLM评判能力的重要资源，已催生或可支撑多项经典工作的延伸。其中，基于推理轨迹的监督微调可直接复现并改进Chain-of-Thought蒸馏的相关研究，例如通过将大模型精细的推理步骤作为软标签训练小模型，提升其评估准确性和推理透明度。另一个方向是利用数据集内置的双模型对照设置，开展Cross-model Distillation的研究，探索知识从大模型向小模型迁移的最佳实践。此外，位置偏差的系统性量化数据为预测一致性（Predictive Consistency）和公平性评估奠定了基准，可直接服务于如Debiasing Language Model Judges等课题的开发与验证。最终，数据集本身的多配置设计（按黑客松分类）也为零样本、少样本跨域迁移学习在评判任务中的表现提供了独特的测试床。

数据集最近研究