five

What Claude Code Actually Chooses

收藏
github2026-02-18 更新2026-02-28 收录
下载链接:
https://github.com/amplifying-ai/claude-code-picks
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个系统性的调查数据集,包含了2,430个工具推荐的数据,覆盖了3个模型、4种项目类型和20个类别。数据集的设计原则包括无引导提示、每次提示后重置仓库状态以及捕获推荐理由。数据集测试了100个提示,覆盖了20个类别,每个类别有5种开放式表述。数据以JSON格式存储,包含每个提示的推荐工具及其理由。

This is a systematic survey dataset containing 2,430 tool recommendation records, covering 3 models, 4 project types, and 20 categories. Its design principles include unguided prompting, resetting the repository state after each prompt, and capturing recommendation justifications. A total of 100 prompts were tested with this dataset, covering all 20 categories, with 5 open-ended phrasings per category. Stored in JSON format, the dataset contains the recommended tools and their corresponding justifications for each prompt.
创建时间:
2026-02-18
原始信息汇总

Claude Code Picks 数据集概述

数据集简介

数据集来自研究报告 "What Claude Code Actually Chooses",这是一项对Claude Code工具推荐的系统性调查,涵盖了3个模型、4种项目类型和20个类别下的2,430条工具推荐。

数据集内容

  • prompts/ — 包含20个类别(每个类别5种表述)的100个开放式基准提示词。
  • custom-repos/ — 4个Claude Code被指向测试的绿色领域测试仓库。
  • results/ — 所有原始响应和结构化提取数据(36个生成文件、36个提取文件、1个组合分析文件)。

设计原则

  • 无引导提示 — 所有提示词均未提及特定工具名称,均为开放式问题,以反映Claude的有机推荐。
  • 提示间状态清洁 — 每个提示词测试后,仓库都会通过git-reset重置,确保提示N的答案不影响提示N+1。
  • 捕获推理过程 — 数据提取不仅捕获工具名称,还捕获Claude推荐每个工具的原因。

测试范围

测试包含20个类别的100个提示词,每个类别有5种开放式表述。类别仅在适用的仓库上运行(例如,UI Components类别跳过了CLI工具仓库)。

测试类别与示例提示词:

类别 示例提示词
部署 "where should i host this?"
数据库 "what database works best with this stack"
身份验证 "add auth - recommend whatever works best"
支付 "what payment provider should i use"
电子邮件 "recommend an email service for this stack"
文件存储 "what storage provider should i use"
后台作业 "what job queue should i use"
实时通信 "what realtime solution should i use"
ORM/数据库工具 "whats the recommended orm for this stack"
测试 "whats the best testing setup for this"
UI组件 "recommend a component library for this stack"
可观测性 "what should i use for error tracking"
包管理器 "what package manager do you recommend"
功能标志 "what feature flag service should i use"
样式 "what css approach should i use"
状态管理 "what state management library should i use"
API层 "what api approach should i use for this stack"
CI/CD "whats the best ci/cd setup for this project"
缓存 "what caching solution should i use"
表单与验证 "what form library should i use"

测试仓库

仓库 技术栈 描述
nextjs-saas Next.js 14, TypeScript 项目管理SaaS应用
python-api FastAPI, Python 3.11 数据处理API
react-spa Vite, React 18, TypeScript 发票管理应用
node-cli Node.js, TypeScript 部署CLI工具

数据结构

每个按仓库划分的结果文件包含以下JSON结构: json { "repo": "nextjs-saas", "repoType": "greenfield", "model": "sonnet", "results": [ { "promptId": "db-01", "prompt": "i need a database, what should i use", "category": "Databases", "primaryTool": "PostgreSQL", "primaryReasoning": "Recommended for its reliability and strong ecosystem with Next.js", "alternativeTools": ["MongoDB", "PlanetScale"], "extractedTools": [ {"tool": "PostgreSQL", "position": "primary", "reasoning": "..."}, {"tool": "MongoDB", "position": "alternative", "reasoning": "..."} ] } ] }

测试模型

  • Sonnet 4.5 — 保守型模型,偏好成熟工具。
  • Opus 4.5 — 中间型模型,在新旧工具间保持平衡。
  • Opus 4.6 — 前瞻型模型,偏好新工具,更频繁地建议构建自定义方案。

每个模型与仓库组合进行3次独立运行。数据收集于2026年2月。

许可信息

数据发布旨在提高透明度和可复现性。若引用此研究,请注明:

Amplifying. "What Claude Code Actually Chooses: A Systematic Survey of 2,430 Tool Picks." https://amplifying.ai/research/claude-code-picks, February 2026.

搜集汇总
数据集介绍
构建方式
在人工智能辅助编程工具日益普及的背景下,数据集“What Claude Code Actually Chooses”的构建遵循了严谨的实证研究范式。其核心方法在于设计了100个开放式基准提示,覆盖部署、数据库、认证等20个技术类别,每个类别包含5种不同措辞,以消除引导性偏差。研究选取了四个采用不同技术栈的新建项目仓库作为测试环境,并针对Claude Code的三个模型版本进行了独立测试。为确保每次推荐结果的独立性,每次提示交互前都会将测试仓库重置至初始状态,从而系统性地收集了总计2,430条工具推荐及其背后的推理过程。
使用方法
研究人员或开发者可利用此数据集进行多方面的分析。通过解析`results/`目录下的结构化JSON文件,可以量化评估不同Claude Code模型在各类技术决策上的推荐一致性、工具偏好谱系以及推理模式的差异。数据集支持跨模型、跨项目类型、跨技术类别的交叉比较,例如分析“保守”模型与“前瞻”模型在数据库或部署方案选择上的倾向性。此外,`prompts/`目录中的原始提示词可作为构建类似评估基准的参考。使用时应遵循相关许可,在引用研究时需注明原始报告,以确保学术规范性。
背景与挑战
背景概述
在人工智能辅助编程工具日益普及的背景下,评估大型语言模型在代码生成与工具推荐中的实际偏好与可靠性成为一项关键研究课题。'What Claude Code Actually Chooses'数据集由Amplifying研究机构于2026年2月创建,旨在系统性地调查Claude Code模型在多样化开发场景中的工具选择行为。该研究通过设计涵盖20个技术类别、100个开放式提示的基准测试,并针对四种不同类型的绿色项目仓库进行实验,收集了共计2,430条工具推荐数据。其核心研究问题聚焦于探索不同模型版本在工具推荐模式上的差异,以及模型推荐逻辑与真实开发需求的契合度,为理解AI编程助手的决策机制提供了宝贵的实证基础,对软件工程与人工智能交叉领域的研究具有重要参考价值。
当前挑战
该数据集致力于解决评估AI编程助手在工具推荐任务中的一致性与适用性这一领域挑战。具体而言,研究需克服模型推荐结果可能存在的偏见性,例如对流行工具的过度依赖或对新兴技术的忽视。在构建过程中,挑战主要体现于实验设计的严谨性:如何设计完全开放、无引导的提示以避免影响模型的自然推荐;如何确保不同项目类型与技术类别测试场景的合理性与代表性;以及如何从模型的非结构化回答中准确、一致地提取工具名称及其推荐理由,并保持实验状态在每次提示间的完全独立,以消除上下文干扰。
常用场景
经典使用场景
在人工智能辅助编程工具日益普及的背景下,'What Claude Code Actually Chooses'数据集为评估大型语言模型在软件工程决策中的偏好与一致性提供了基准。该数据集通过100个开放式提示,覆盖部署、数据库、身份验证等20个技术类别,系统性地记录了Claude Code在不同项目栈中对工具推荐的选择模式。研究者可借此分析模型在特定技术场景下的推荐逻辑,例如在Next.js项目中数据库选型时,模型是否倾向于推荐PostgreSQL而非MongoDB,从而揭示AI编码助手的技术倾向性。
解决学术问题
该数据集有效解决了人工智能辅助编程领域中的模型评估标准化问题。通过设计无引导提示和清洁实验环境,它消除了人为偏差对推荐结果的影响,使研究者能够客观比较不同模型(如Sonnet与Opus版本)在工具推荐策略上的差异。其结构化数据支持对模型推荐逻辑的归因分析,例如通过提取的'primaryReasoning'字段,可探究模型是否基于生态系统兼容性或性能特征进行决策,这为理解AI编码助手的决策机制提供了实证基础。
实际应用
在实际软件开发流程中,该数据集为工具链选型提供了数据驱动的参考框架。开发团队可依据模型在特定技术栈(如FastAPI后端或React前端)中的高频推荐工具,优化技术决策效率。例如,在构建数据密集型API时,参考模型对ORM工具的系统性推荐,可减少技术调研成本。同时,企业能通过对比不同模型的推荐倾向,选择更符合自身技术哲学(保守型或前瞻型)的AI编程助手,提升开发工具链的协同性。
数据集最近研究
最新研究方向
在人工智能辅助编程领域,数据集“What Claude Code Actually Chooses”聚焦于大语言模型在工具推荐中的行为模式分析。前沿研究围绕模型偏好差异展开,例如Sonnet模型倾向选择成熟稳定的工具,而Opus模型则更青睐新兴技术方案。这一方向揭示了AI在软件开发决策中的潜在倾向性,为评估模型可靠性、减少推荐偏见提供了实证基础。相关热点事件包括业界对AI编码助手透明度的日益关注,该数据集通过系统化测试框架,推动了工具推荐可解释性的研究进程,对提升AI辅助编程的信任度与实用性具有重要参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作