hf-coding-tools-dashboard
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/davidkling/hf-coding-tools-dashboard
下载链接
链接失效反馈官方服务:
资源简介:
HuggingFace AI编码工具仪表板数据集是一个用于评估AI编码工具(包括Claude Code、Codex、Copilot和Cursor)在32个开发者类别中推荐HuggingFace产品情况的基准数据集。数据集包含四个主要部分:1) results包含完整的基准测试结果,记录LLM响应、成本、token数、延迟和产品检测信息(1999行);2) queries包含32个类别的基准查询定义(404行);3) runs包含运行元数据和工具/模型配置(2行);4) products包含带有检测关键词的HuggingFace产品目录(44行)。关键字段包括测试工具、使用模型、原始响应文本、检测到的产品以及性能指标(成本、输入/输出token数、延迟)。数据集适用于文本生成任务,可用于AI编码工具性能分析和产品推荐研究。
The HuggingFace AI Coding Tools Dashboard dataset is a benchmark dataset for evaluating AI coding tools (including Claude Code, Codex, Copilot, and Cursor) in recommending HuggingFace products across 32 developer categories. The dataset consists of four main parts: 1) results contains complete benchmark results, recording LLM responses, costs, token counts, latency, and product detection information (1999 rows); 2) queries contains benchmark query definitions for 32 categories (404 rows); 3) runs contains run metadata and tool/model configurations (2 rows); 4) products contains a HuggingFace product catalog with detection keywords (44 rows). Key fields include the tested tool, model used, raw response text, detected products, and performance metrics (cost, input/output token counts, latency). The dataset is suitable for text generation tasks and can be used for AI coding tool performance analysis and product recommendation research.
创建时间:
2026-04-28
原始信息汇总
数据集概述:HuggingFace AI Coding Tools Dashboard
该数据集用于追踪AI编码工具(Claude Code、Codex、Copilot、Cursor)在32个开发者类别中推荐HuggingFace产品的表现,数据源自HuggingFace AI Dashboard。
任务与标签
- 任务类别:文本生成
- 标签:benchmark、ai-coding-tools、huggingface
- 语言:英语、代码
- 许可证:CC-BY-4.0
- 数据规模:1K < n < 10K
数据集结构
数据集包含4个配置子集:
| 子集 | 描述 | 行数 |
|---|---|---|
results |
完整的基准测试结果,包含LLM响应、成本、Token数、延迟和产品检测 | 1999 |
queries |
覆盖32个类别的基准查询定义 | 404 |
runs |
运行元数据和工具/模型配置 | 2 |
products |
HuggingFace产品目录及检测关键词 | 44 |
核心字段(results子集)
- tool:测试的AI编码工具(
claude_code、codex、copilot、cursor) - model:使用的具体模型
- response:LLM原始响应文本
- detected_products:响应中提及的HuggingFace产品
- cost_usd / tokens_input / tokens_output / latency_ms:性能指标
示例查询
DuckDB: sql SELECT tool, COUNT(*) as mentions FROM results WHERE response LIKE %xet% GROUP BY tool
Python: python from datasets import load_dataset results = load_dataset("davidkling/hf-coding-tools-dashboard", "results") queries = load_dataset("davidkling/hf-coding-tools-dashboard", "queries")
搜集汇总
数据集介绍

构建方式
该数据集源自HuggingFace AI Dashboard基准测试平台,旨在系统追踪主流AI编程工具(Claude Code、Codex、Copilot、Cursor)在32个开发者类别中推荐HuggingFace产品的表现。数据集的构建围绕四个核心配置展开:results配置存储完整的基准测试结果,涵盖大语言模型的响应文本、成本、令牌数、延迟及产品检测信息,共1999条记录;queries配置定义了404条跨类别的基准查询;runs配置记录2条运行元数据与工具/模型配置;products配置收录44个HuggingFace产品及其检测关键词。各配置通过Parquet格式文件组织,确保数据加载的高效性。
特点
该数据集的核心特色在于其多维度的评估体系,深度融合了AI编码工具的性能指标与产品推荐效果。results配置不仅包含工具名称、模型型号等基础信息,还提供了完整的原始响应文本用于深度分析,同时记录了检测到的HuggingFace产品列表。在性能层面,数据集细致量化了每次请求的成本(cost_usd)、输入输出令牌数(tokens_input/tokens_output)及延迟(latency_ms),为研究人员提供了从经济性到响应速度的全景视角。此外,跨32个开发者类别的查询设计保证了评估的全面性与生态代表性。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集。例如,利用load_dataset函数指定配置名称即可获取相应子集:results配置返回包含完整基准结果的数据表,queries配置提供查询定义。数据支持灵活的编程接口,既可通过Python脚本进行深度分析,也可借助DuckDB等工具执行高效的SQL查询,如按工具分组统计特定产品的提及次数。这种设计使得从简单的聚合统计到复杂的模型行为分析均能轻松实现,极大便利了AI编码工具推荐能力的评估与比较研究。
背景与挑战
背景概述
随着大语言模型在代码生成领域的迅猛发展,AI编码工具如Claude Code、Codex、Copilot和Cursor等正逐步成为开发者日常研发流程中不可或缺的辅助手段。然而,这些工具在推荐特定平台产品(如HuggingFace所提供的一系列开发者服务)时的准确性与一致性尚未得到系统性评估。为填补这一研究空白,HuggingFace AI Coding Tools Dashboard数据集于近期由David Kling及其团队创建,旨在构建一个涵盖32个开发者类别的基准评测框架。该数据集通过记录上述四种主流AI编码工具对HuggingFace产品的推荐行为,收集了包括响应文本、检测产品、成本、令牌数与延迟在内的多维性能指标,共计近2000条评测结果。这一工作的发布,为衡量代码生成模型在特定产品推荐场景中的表现提供了宝贵的标准化依据,也推动了AI编码工具实用性能评估领域的进一步发展。
当前挑战
该数据集所应对的核心挑战在于,当前AI编码工具虽能生成高质量的代码片段,但其在精准推荐特定第三方平台产品方面仍存在显著短板,如模型可能错误地引用过时或无关的API、忽略产品之间的差异,甚至推荐不存在的功能,这直接影响了开发者的信任度与工具的实际可用性。在数据集构建过程中,团队面临多重技术挑战:首先,如何设计出既能覆盖HuggingFace生态全貌又能避免模板化偏差的404条查询语句是一项精细工程;其次,从各工具庞大的输出中自动识别并匹配44种产品关键词,要求检测算法在处理变体表述、缩写与同义词时保持高度鲁棒性;此外,不同工具的响应格式、推理成本与延迟差异巨大,如何在统一架构下标准化这些异构数据以支持公平比较,亦是不可忽视的难点。
常用场景
经典使用场景
在代码生成与AI辅助编程的交叉领域中,该数据集最经典的用途是评估主流AI编码工具(如Claude Code、Codex、Copilot和Cursor)在推荐HuggingFace产品时的表现。通过分析1999条完整的基准测试结果,研究者能够系统性地对比不同工具在32个开发者类别上的推荐准确性、响应成本、令牌消耗及延迟等关键指标。数据集提供了标准化的查询定义和产品目录,使得跨工具的性能比较具备可重复性和公平性,为AI编码助手的质量评估奠定了坚实的数据基础。
实际应用
在实际开发工作中,该数据集可用于辅助技术团队选择最适合其工作流的AI编码工具。例如,团队可依据数据集中不同工具在各自技术栈类别上的推荐表现,决定优先采用Claude Code还是Cursor进行HuggingFace相关项目的开发。企业还可基于成本和延迟的数据,优化API调用策略,在保证推荐质量的前提下控制预算。此外,数据集为HuggingFace产品的推广提供了量化依据,帮助生态运营方识别工具推荐中的薄弱环节,从而针对性地改进产品文档或提升工具集成度。
衍生相关工作
基于该基准数据,研究者已衍生出多项开创性工作:构建了首个AI编码工具在HuggingFace生态中的推荐排行榜,揭示了不同模型架构(如代码专用模型与通用模型)在推荐任务上的性能差异;开发了针对工具响应文本的产品检测算法,提升了从自然语言回答中提取结构化产品信息的精度;并催生了关于提示工程对工具推荐效果影响的系统性分析,为优化开发者与AI协作模式提供了实证基础。这些工作共同拓展了AI编程工具评估的研究边界。
以上内容由遇见数据集搜集并总结生成



