DataClaw
收藏github2026-02-25 更新2026-02-26 收录
下载链接:
https://github.com/peteromallet/dataclaw
下载链接
链接失效反馈官方服务:
资源简介:
DataClaw是一个工具,用于将Claude Code和Codex的对话历史转换为结构化数据并发布到Hugging Face,形成一个分布式数据集。它解析会话日志,编辑秘密和个人身份信息(PII),并将结果上传为一个即用型数据集。
DataClaw is a utility tool designed to convert conversation histories of Claude Code and Codex into structured data, and publish the processed results to Hugging Face to form a distributed dataset. It parses session logs, redacts sensitive information and personally identifiable information (PII), and uploads the finalized content as a ready-to-use dataset.
创建时间:
2026-02-25
原始信息汇总
DataClaw 数据集概述
数据集简介
DataClaw 是一个工具,用于将用户与 Claude Code、Codex、Gemini CLI、OpenCode 和 OpenClaw 等编码代理的对话历史转换为结构化数据集,并发布到 Hugging Face 平台。该项目旨在创建一个由真实世界人机编码协作记录组成的分布式数据集。
核心功能
- 数据转换:解析会话日志,将其转换为结构化数据。
- 隐私保护:自动编辑秘密信息和 PII(个人身份信息)。
- 一键发布:通过单个命令将处理后的数据上传至 Hugging Face。
数据内容
包含的数据项
- 用户消息(包括语音转录文本)
- 助手回复
- 扩展思考内容(Claude 的推理过程,可通过
--no-thinking选项排除) - 工具调用(工具名称、输入、输出)
- 令牌使用情况(每个会话的输入/输出令牌数)
- 模型及元数据(模型名称、Git 分支、时间戳)
数据模式
每个会话以 JSONL 格式存储于 conversations.jsonl 文件中,包含以下字段:
session_idprojectmodelgit_branchstart_timeend_timemessages(包含角色、内容、思考过程、工具使用等信息的数组)stats(包含用户消息数、助手消息数、工具使用次数、输入/输出令牌数的统计信息)
每个 Hugging Face 仓库还包含一个包含聚合统计数据的 metadata.json 文件。
隐私与编辑机制
DataClaw 实施多层保护措施:
- 路径匿名化:文件路径被剥离至项目相对路径。
- 用户名哈希处理:用户 macOS 用户名及配置的用户名被替换为稳定的哈希值。
- 秘密检测:通过正则表达式模式捕获 JWT 令牌、API 密钥、数据库密码、私钥、Discord Webhook 等。
- 熵分析:标记引号内长的高熵字符串作为潜在秘密。
- 电子邮件编辑:移除个人电子邮件地址。
- 自定义编辑:用户可以配置额外的字符串和用户名进行编辑。
- 工具调用编辑:编辑工具输入和输出中的秘密信息。
注意:自动化编辑并非万无一失,用户在发布前必须审阅导出的数据。
数据集发布与发现
- 所有导出数据集在 Hugging Face 上均标记为
dataclaw。 - 仓库命名格式为
{username}/my-personal-codex-data。 - 可通过链接 https://huggingface.co/datasets?other=dataclaw 浏览所有数据集。
- 自动生成的 Hugging Face README 包含模型分布、总令牌数、项目数和最后更新时间戳。
使用方式
快速开始
通过命令行工具 dataclaw 进行操作,主要步骤包括:
- 安装与配置 (
dataclaw prep,dataclaw config) - 选择数据源范围(Claude Code, Codex, Gemini CLI, OpenCode, OpenClaw 或全部)
- 列出并确认项目文件夹
- 本地导出并审阅 (
dataclaw export --no-push) - 确认隐私扫描 (
dataclaw confirm) - 发布至 Hugging Face (
dataclaw export --publish-attestation)
与代理集成
提供详细的提示词,可引导 Claude Code、Codex、Gemini CLI、OpenCode、OpenClaw 等编码代理协助用户完成整个数据导出流程。
许可证
MIT 许可证
搜集汇总
数据集介绍
构建方式
在人工智能与人类协作编程日益普及的背景下,DataClaw数据集通过自动化工具链构建,旨在收集真实世界的人机编码对话历史。该工具支持从Claude Code、Codex、Gemini CLI、OpenCode及OpenClaw等多种编程代理平台导出会话日志,并执行结构化解析。构建过程涵盖隐私保护机制,包括路径匿名化、用户名哈希处理、基于正则表达式的密钥检测、熵值分析以识别潜在敏感信息,以及电子邮件地址自动抹除。用户可通过配置自定义字符串与用户名进行额外脱敏,确保数据在发布至Hugging Face平台前经过多层审查与确认流程,最终形成标准化JSONL格式的会话记录。
特点
DataClaw数据集的核心特征在于其聚焦于真实场景下人类与AI编程助手之间的互动对话,覆盖从问题提出、代码调试到工具调用的完整协作链条。数据集不仅包含用户消息与助手回复的完整文本,还整合了扩展推理过程、工具调用详情及会话元数据,如模型类型、时间戳与令牌使用统计。其隐私保护设计尤为突出,通过自动化与人工审核相结合的多重脱敏层,有效降低个人信息与敏感内容泄露风险。此外,所有导出数据均以统一模式组织,并附带聚合统计的元数据文件,便于研究者进行质量评估与跨会话分析。
使用方法
研究者可通过Hugging Face平台访问以`dataclaw`标签标记的分布式数据集,利用`datasets`库加载单个或合并多个用户贡献的会话集合。数据加载后,可依据会话标识、项目名称或模型类型进行筛选与切片,深入分析不同编程任务中AI助手的响应模式、工具使用效率及协作流程。该数据集适用于训练或评估代码生成模型、研究人机交互范式、以及探索隐私保护技术在开放数据共享中的应用。使用前建议仔细阅读各数据集的元数据说明,并注意自动化脱敏可能存在的局限性,必要时进行人工复核以确保数据合规性。
背景与挑战
背景概述
DataClaw数据集诞生于人工智能与代码生成领域快速演进的背景下,旨在应对大型语言模型(LLM)训练数据日益封闭化的趋势。该项目由开源社区主导,其核心研究问题聚焦于如何构建一个去中心化、由真实世界人机协作编程对话构成的开放数据集。通过解析用户与Claude Code、Codex、Gemini CLI等主流编码助手的会话历史,DataClaw致力于为研究社区提供高质量、结构化的交互数据,以促进透明、可复现的AI协作研究,并对抗训练数据垄断的行业现状。
当前挑战
DataClaw数据集面临的核心挑战在于其试图解决的领域问题——构建真实、高质量的人机编程协作数据。这一过程需克服数据隐私与安全的严峻考验,自动化红名机制虽能处理常见密钥与个人信息,但难以覆盖所有潜在敏感内容,尤其是非标准格式或领域特定标识符。在构建层面,挑战体现在如何从异构的会话日志中提取统一、结构化的信息,并确保数据格式的规范性与可扩展性,同时维持用户参与贡献的便捷性与数据质量的可靠性之间的平衡。
常用场景
经典使用场景
在人工智能辅助编程领域,DataClaw数据集为研究人机协作编程行为提供了宝贵的真实世界语料。其经典使用场景聚焦于分析开发者与AI编程助手(如Claude Code、Codex等)的交互会话,涵盖代码生成、调试、工具调用等完整协作流程。这些结构化数据使得研究人员能够深入探究AI在软件开发周期中的实际作用模式,为理解智能编码助手的交互范式奠定基础。
解决学术问题
该数据集有效解决了人机协作编程研究中高质量真实数据稀缺的学术难题。通过提供经过隐私处理的真实交互记录,它支持对AI编程助手的有效性、偏差性及安全性进行实证评估。其意义在于打破了商业模型数据封闭的壁垒,促进了开放式学术研究,为编程语言处理、软件工程人工智能等交叉领域提供了可验证的研究基础,推动了透明化、可复现的学术进展。
衍生相关工作
围绕DataClaw数据集已衍生出多项经典研究工作,包括基于会话序列的编程意图识别模型、AI辅助编程的效能评估框架、以及代码生成中的隐私保护机制分析。这些工作深入挖掘了人机编程协作的交互动力学,为构建下一代可解释、可信任的AI编程助手提供了理论支撑与方法论指导,显著丰富了智能软件工程领域的研究图谱。
以上内容由遇见数据集搜集并总结生成



