CoderCrucible
收藏CoderCrucible 数据集概述
数据集简介
CoderCrucible 是一个隐私优先的工具,旨在将用户与各类AI编程助手的对话记录转化为一个干净、可共享、社区所有的数据集。其核心目标是构建一个大规模、高质量、真实的人类与AI编程交互的开放语料库。
核心目标
- 打破数据垄断,推动模型进步。
- 通过自愿、完全匿名的数据共享,促进开源发展。
- 构建可用于训练、微调或研究的统一格式数据集。
主要特性
多代理支持
支持解析来自以下AI编程助手的对话:
- Claude Code (原始版本)
- Cursor
- GitHub Copilot Chat
- Cline
- Continue.dev
- Windsurf / Codeium
深度匿名化
- 用户信息处理:用户名和文件路径被替换为确定性哈希值。
- 模型信息处理:模型名称被替换为通用标签(如
<model‑anthropic>,<model‑openai>)。 - 内容清理:移除提供商特定的措辞和水印。
- 敏感信息扫描:通过正则表达式和熵分析,扫描并替换API密钥、令牌、密码等秘密信息。
- 邮箱处理:邮箱地址被替换为
<email>。 - 隐形令牌:移除已知的令牌特定模式(如某些Unicode变体)。
本地搜索
- 使用BM25F算法进行排名并给出置信度分数。
- 基于抽象语法树(AST)的事实提取,实现代码感知搜索。
- 完全离线运行,零成本。
语义增强(实验性功能)
- 低成本思考 (
think-cheap):使用Groq 8B模型为会话添加意图、情感标签和安全标记。 - 意图分类:调试、功能、问题、发泄、探索等。
- 情感标签:沮丧、兴奋、困惑、解脱、好奇等。
- 安全标记:潜在秘密、硬编码密钥、基础设施泄漏等。
导出格式
支持导出为多种通用训练格式:
- JSONL
- ChatML
- Alpaca
- 纯文本
隐私优先
所有匿名化处理均在本地进行,除非用户明确选择共享,否则数据不会离开用户的机器。
数据模式(通用模式)
所有对话均被规范化为单一的JSONL格式,便于合并不同来源的数据集。
数据结构示例
json { "meta": { "source_agent": "cursor", "session_id": "uuid-v4", "project_hash": "sha256-of-project-root", "start_time": 1729900000, "end_time": 1729903600, "quality_score": 0.85, "schema_version": "1.0" }, "messages": [ { "index": 0, "role": "user", "content": "Refactor the login function to use OAuth.", "timestamp": 1729900000, "annotations": { "file_refs": ["src/auth/login.ts"], "tool_calls": null } } ] }
法律安全性
通过积极剥离AI提供商嵌入的指纹信息(如模型名称、特定措辞模式、隐形字符),生成的数据集难以追溯至特定提供商。这旨在保护用户免受潜在的服务条款争议,并支持真正开放的、无惧撤回的研究。
使用与贡献
- 工具鼓励用户在共享前审查自己的数据。
- 工具始终先进行本地导出,用户必须显式运行
codercrucible confirm命令来查看将被替换的内容,然后才能上传。 - 项目欢迎贡献,并提供了贡献指南(CONTRIBUTING.md)。
许可证
此工具基于MIT许可证发布。所有贡献的数据仍归贡献者所有,本工具仅提供数据处理能力。
免责声明
代码库正在快速开发中,功能可能不完善。用户被警告不要在上传数据前盲目操作,需完全确保数据已清理干净。



