hf-coding-tools-dashboard-v2

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/davidkling/hf-coding-tools-dashboard-v2

下载链接

链接失效反馈

官方服务：

资源简介：

HuggingFace AI Coding Tools Dashboard（增强版）是一个用于评估AI编程工具的增强基准数据集。该数据集包含四个主要部分：results（增强结果，包含查询/运行元数据和新鲜度标志）、queries（基准查询定义，包含query_set和intent列）、runs（运行元数据和工具/模型配置）以及products（HuggingFace产品目录，包含检测关键词）。数据集规模在1K到10K之间，支持英语和代码语言。增强的results部分新增了query_set（v1或v2）、intent（构建、修复、集成、优化、发现）、run_name（可读运行名称）、run_date（运行开始时间）和freshness_flag（标记过时的引用）等字段。该数据集适用于文本生成任务，特别是AI编程工具的性能评估和意图分析。

HuggingFace AI Coding Tools Dashboard (Enhanced) is an enhanced benchmark dataset for evaluating AI coding tools. The dataset consists of four main parts: results (enhanced results, including query/run metadata and freshness flags), queries (benchmark query definitions, including query_set and intent columns), runs (run metadata and tool/model configurations), and products (HuggingFace product catalog, including detection keywords). The dataset size ranges from 1K to 10K, supporting English and code languages. The enhanced results section includes new fields such as query_set (v1 or v2), intent (build, fix, integrate, optimize, discover), run_name (human-readable run name), run_date (run start time), and freshness_flag (flagging outdated references). This dataset is suitable for text generation tasks, particularly for performance evaluation and intent analysis of AI programming tools.

创建时间：

2026-04-28

原始信息汇总

数据集概述

基本信息

数据集名称：HuggingFace AI Coding Tools Dashboard (Enhanced)
许可证：CC-BY-4.0
语言：英文、代码
任务类别：文本生成
标签：benchmark、ai-coding-tools、huggingface、v2
数据规模：1,000 < 样本数 < 10,000

数据集描述

该数据集是 HuggingFace AI Dashboard 的增强版基准测试数据，包含查询元数据（query_set、intent）、运行元数据（run_name、run_date）以及用于标记过时引用的新鲜度标志（freshness_flag）。本数据集为 v2 增强版本，原始数据集为 davidkling/hf-coding-tools-dashboard。

数据结构

数据集包含四个配置（config），每个配置对应一个数据文件：

配置名	描述	行数
`results`	增强的结果数据，包含查询/运行元数据和新鲜度标志	1,999
`queries`	基准查询定义，包含 query_set 和 intent 列	404
`runs`	运行元数据和工具/模型配置	2
`products`	HuggingFace 产品目录及检测关键词	44

增强字段（results）

在基础数据集字段之上新增以下字段：

query_set：使用的查询集（v1 或 v2）
intent：查询意图分类（build、fix、integrate、optimize、discover）
run_name：可读的运行名称
run_date：运行开始时间
freshness_flag：ok 或 stale_reference——标记引用了已弃用模型/资源的响应

查询集

v1：原始 32 类查询集，涵盖通用 AI 编码工具使用场景
v2：扩展查询集，包含带有意图标签的查询，用于更深层次分析

意图分类

意图	描述
`build`	从零开始构建新内容
`fix`	调试或修复问题
`integrate`	连接工具/服务
`optimize`	提升性能或效率
`discover`	探索选项和学习

数据加载示例

Python 加载数据集： python from datasets import load_dataset results = load_dataset("davidkling/hf-coding-tools-dashboard-v2", "results", split="train") build_results = results.filter(lambda x: x["intent"] == "build")

Pandas 读取 Parquet 文件： python import pandas as pd df = pd.read_parquet("hf://datasets/davidkling/hf-coding-tools-dashboard-v2/data/results-00000-of-00001.parquet") print(df.groupby(["tool", "freshness_flag"]).size().unstack(fill_value=0))

搜集汇总

数据集介绍

构建方式

该数据集源自HuggingFace AI仪表板的基准测试数据，经过增强处理形成v2版本。构建过程中，数据集被划分为四个核心子集：results、queries、runs及products。results子集融合了查询与运行元数据，并引入新鲜度标志；queries子集编码了基准查询定义；runs子集记录了运行配置；products子集则收纳了HuggingFace产品目录。所有数据均以Parquet格式存储，确保高效访问与处理。

特点

数据集的核心特色在于其增强的字段设计，不仅保留了原始数据，还新增了query_set、intent、run_name、run_date及freshness_flag等关键属性。这些属性使得用户能够从查询集合、意图分类、运行元数据和引用新鲜度等多个维度进行深入分析。特别地，freshness_flag字段通过标记stale_reference，有效识别了引用已弃用模型或资源的响应，显著提升了基准测试的时效性与可靠性。

使用方法

数据集提供了灵活的使用方式，支持通过HuggingFace datasets库加载，例如利用load_dataset函数直接获取results子集，并可基于intent字段进行过滤分析。同时，用户亦可借助Pandas读取Parquet文件，对工具与新鲜度标记等字段进行聚合统计。数据集中还附带了DuckDB查询示例，便于进行跨工具、跨查询集合的性能对比与新鲜度剖析，适用于评估AI编码工具的基准表现。

背景与挑战

背景概述

在人工智能辅助编程领域，评估各类编码工具的性能与可靠性已成为研究热点。HuggingFace AI Coding Tools Dashboard (Enhanced) 数据集由研究者 David Kling 于近期创建，旨在系统性地量化主流 AI 编程工具对 HuggingFace 生态的整合程度。该数据集通过精心设计的查询集合，覆盖构建、修复、集成、优化与探索五大意图维度，将原始基准数据升级为包含元数据（如查询意图、运行配置）及新鲜度标记的增强版本，为深入分析工具在资源引用时效性、功能覆盖广度等关键指标上的表现提供了标准化评估框架。其影响力在于能够揭示不同 AI 编码工具在 HuggingFace 场景下的实际效力，推动该领域向更规范、更可复现的评测方向演进。

当前挑战

该数据集所攻克的领域挑战在于，先前缺乏一种兼顾多维意图与引用时效性的统一基准来评估 AI 编码工具对特定生态平台的交互能力。传统评测多聚焦于通用代码生成，未能细化工具在调试、集成等具体任务场景中的表现差异，亦忽视其引用已淘汰模型或接口所带来的误导风险。在构建层面，数据集面临如何从海量异构查询中提炼出代表性意图标签的难题，同时需设计可靠的 freshness_flag 检测逻辑以准确判断引用是否过时。此外，跨版本查询集（v1 与 v2）的兼容性、运行元数据的标准化记录以及结果数据的可复现聚合，均构成了技术实现上的多重挑战。

常用场景

经典使用场景

在人工智能辅助编程工具的评估领域，HuggingFace AI Coding Tools Dashboard (Enhanced) 数据集提供了一套系统化的评测基准。该数据集整合了多种编程工具在五大意图类别（构建、修复、集成、优化、探索）下的表现数据，涵盖查询元数据、运行配置及结果新鲜度标签。研究者可借助这一资源，对诸如 DuckDB、Pandas 等工具的 AI 编码能力进行横向对比，分析其在不同任务类型中的准确率、成本效益及知识时效性。通过精细化的查询集设计（v1 与 v2），该数据集支持从历史趋势到意图驱动的多维度剖析，成为衡量工具在真实编码场景中效能的坚实基石。

衍生相关工作

该数据集的发布催生了一系列衍生研究工作。基于其结构化的查询与运行元数据，研究者开发出了面向 AI 编码工具的准确率预测模型，利用意图标签与历史成本数据提前推断任务成功率。同时，新鲜度标记激发了关于知识库时效性维护的讨论，促成了自适应的引用更新算法设计。部分团队受 v2 查询集启发，构建了更细粒度的意图分类体系，并将其迁移至非英语编程环境的评测中。数据集的公开还推动了社区贡献的基准扩展项目，例如添加更多编程语言与框架的测试用例，形成了活跃的生态迭代循环。

数据集最近研究