five

xenosaac/alphahack-devpost

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/xenosaac/alphahack-devpost
下载链接
链接失效反馈
官方服务:
资源简介:
AlphaHack Devpost数据集是一个用于预测黑客马拉松结果的因子工程数据集。它通过爬取2019年至2026年间Devpost的公开项目和活动页面构建而成。数据集包含265,088个项目行、11,972个活动、1,409个带有评判标准的活动、28,708行Sonnet注释的评分标准、500对A/B比较、100个精选高质量获奖示例以及一个包含101,682行×151列的工程特征parquet文件。数据集旨在用于研究黑客马拉松生态系统中的竞争动态、公共竞赛的因子建模、AlphaHack模型的可重复性以及LLM生成评分标准的分布外分析。数据集的使用受到一些限制,如仅包含英语内容、企业赞助活动过度代表等。

The AlphaHack Devpost Dataset is a factor-engineering dataset for hackathon-outcome prediction, built by crawling Devposts public project and event pages between 2019 and 2026. It includes 265,088 project rows across 10 shards, 11,972 events, 1,409 events with judging criteria, 28,708 Sonnet-annotated rubric scores, 500 pairwise A/B comparisons, 100 curated top-quality winner exemplars, and an engineered feature parquet with 101,682 rows × 151 columns. The dataset is intended for research on competition dynamics in hackathon ecosystems, factor modeling for public competitions, reproducibility of the AlphaHack models, and out-of-distribution analysis of LLM-generated rubric scores. Limitations include English-language content only, over-representation of corporate-sponsored events, and other documented biases.
提供机构:
xenosaac
搜集汇总
数据集介绍
main_image_url
构建方式
AlphaHack Devpost数据集源自对Devpost平台公开项目与活动页面的系统性爬取,时间跨度涵盖2019年至2026年。采集过程采用httpx与selectolax解析普通页面,并借助Playwright以合规速率访问评委页面,全程未使用认证API。原始数据经过去重、字段清洗与整合,形成10个分片共265,088条项目记录,并剔除team_members等个人标识信息。在此基础上,通过Claude Sonnet对项目文本进行客观评判标注,生成28,708条量化评分数据;同时精心构造包含151列特征向量表,涵盖事件、内容、技术栈、演示完整性、叙事性、团队规模等多个维度的工程化特征。
特点
该数据集兼具规模性与结构化深度,涵盖11,972个独立活动、101,682个唯一项目ID,且项目可跨活动提交,体现了多对多的复杂关联。特征设计精细,包含事件级特征(如奖金池)、内容质量NLP因子、技术栈信号、演示完整性指标、叙事记忆度因子等,并引入事件内百分位排名与因子交互特征,为竞争动态建模提供多元视角。标注质量严格把控,仅保留Sonnet评判结果,摒弃误差率达40%的Haiku版本。此外,数据集包含500对匿名化的两两对比样本及100个精选冠军示例,便于基准测试与定性分析。
使用方法
用户可通过加载JSONL分片文件获取原始项目与事件数据,使用rubric_scores.jsonl进行监督学习任务,或利用features目录下的Parquet特征表直接训练预测模型。推荐使用23个精选特征复现AlphaHack最终发布的冠军预测模型。pairwise目录下的A/B比较数据适用于排序学习或偏好建模。数据集主要用于黑客松生态系统研究、公开竞赛的因子建模、基于LLM的评判分数分布外分析,以及AlphaHack模型的可复现性验证。禁止用于个体排名、雇佣决策或干扰实际赛事,且需注意英语偏差与企业赞助事件过度代表等局限性。
背景与挑战
背景概述
AlphaHack Devpost Dataset是由研究者xenosaac于2026年构建的因子工程数据集,专注于黑客松竞赛结果预测。该数据集通过爬取Devpost平台2019至2026年间的公开项目和事件页面创建,包含超过10万个独特项目、近1.2万个事件以及丰富的工程化特征(151列因子表),并配有Sonnet模型标注的评分数据。核心研究问题在于量化黑客松竞赛中的成功因素,为竞争动态分析和因子建模提供标准化基准。该数据集填补了黑客松生态量化研究的空白,催生了配套预测模型(如winner_predictor_final.pkl),在学术和工业界推动了可复现的因子工程研究,对理解公开竞赛的决策机制具有里程碑意义。
当前挑战
该数据集面临的挑战包括:首先,领域问题层面,黑客松结果预测属于高度非结构化任务,项目成功受赞助商偏好、评审主观性、团队隐性能力等多维因素影响,传统的二分类模型难以捕捉Simpson悖论(如7个因子在按事件规模分层后方向反转)。其次,构建过程中,数据爬取受限于Devpost的公共页面(无API),导致评委信息缺失、非英文事件代表性不足;团队成员URL因隐私保护被删除,削弱了团队结构分析能力。此外,标注质量参差——Haiku模型批次错误率高达40%,仅Sonnet标注可靠;且标注样本非随机均衡,偏向获奖项目,可能引入选择偏差。最后,特征工程面临时空一致性难题,不同年份的赞助模式与技术栈演变可能使部分因子(如demo视频存在性)的预测效力随时间衰减。
常用场景
经典使用场景
在黑客马拉松生态系统研究领域,AlphaHack Devpost数据集为预测竞赛项目成败提供了经典的多模态分析框架。该数据集汇聚了265,088条项目记录与11,972场赛事信息,涵盖了从技术标签、团队规模到演示视频完备性等151个工程化特征。研究者通过结合项目描述文本的NLP特征与赛事层面的竞争密度指标,能够系统性地构建因子模型,用以量化评估影响获奖概率的关键变量。这一使用场景的核心价值在于将非结构化的黑客马拉松文本转化为可计算的预测信号,为竞赛动力学研究奠定了标准化的数据基石。
解决学术问题
针对黑客马拉松领域长期存在的评估标准模糊与结果不可复现等学术难题,该数据集通过引入Claude Sonnet自动标注的28,708条评分数据与500对人类偏好比较对,首次实现了大规模竞赛结果的多维度量化。它解决了因子建模中的辛普森悖论问题——数据集文档明确提示7个因子在按赛事规模分层时会出现方向反转,这为统计方法论研究提供了珍贵案例。同时,数据集中68个标签列的精心设计,使研究者能够剖析赞助商奖项、特等奖项等不同获奖类别间的非线性关系,推动了竞赛机制设计理论的实证检验。
衍生相关工作
该数据集衍生了一系列影响深远的学术工作,其中最引人注目的是其配套的AlphaHack预测模型家族。在特征工程层面,研究者基于151维特征表开发了加权特征选择算法,识别出23个核心预测因子,在赞助商奖项预测任务上实现了0.908的AUC值。伦理研究领域,数据集的隐私处理方案——通过剥离成员用户名URL保留团队规模——为个人信息保护提供了可复用的技术范式。此外,针对LLM标注质量的严谨评估(淘汰Haiku模型80%的错误标注)直接催生了关于大语言模型评分可靠性的系统研究,成为合成数据质量基准领域的引用标杆。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作