five

axentx/surrogate-1-training-pairs

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/axentx/surrogate-1-training-pairs
下载链接
链接失效反馈
官方服务:
资源简介:
Surrogate-1训练对数据集(axentx)是一个精心策划的DevSecOps和云服务指令对集合,专门针对泰国市场进行微调。数据集包含来自多种来源的数据:Claude代码转录(匿名化处理)、DevSecOps定时任务输出、公开GitHub代码模式(经过过滤和清理)、特定领域仓库的README文件、网络爬取内容(RSS、博客、CVE)、代码检索对以及用于DPO的偏好对。所有数据都经过严格隐私处理,移除了真实姓名、雇主名称、公司关联信息、API密钥、令牌、秘密以及内部追踪信息。数据集支持泰语和英语,采用MIT许可证。

The Surrogate-1 Training Pairs (axentx) is a curated collection of DevSecOps and Cloud instruction pairs for fine-tuning in the Thai market. The dataset includes data from various sources: anonymized Claude Code transcripts, DevSecOps cron outputs, filtered and scrubbed public GitHub code patterns, domain-scraped repository READMEs, web crawl data (RSS, blogs, CVE), code retrieval pairs, and preference pairs for DPO. All pairs have been scrubbed of real names, employer names, company affiliations, API keys, tokens, secrets, and internal traces. The dataset supports Thai and English languages and is licensed under MIT.
提供机构:
axentx
原始信息汇总

根据您提供的数据集详情页面信息,以下是关于数据集 axentx/surrogate-1-training-pairs 的总结:

数据集概述

  • 数据集名称:Surrogate-1 Training Pairs
  • 维护者:axentx
  • 语言:泰语(Thai)、英语(English)
  • 数据规模:1M < n < 10M
  • 总文件大小:2.31 TB
  • 下载量(上月):1,064
  • 许可证:MIT

数据集描述

该数据集是专为微调 Surrogate-1 模型而整理的 DevSecOps、云技术及泰语市场相关的指令对(instruction pairs)。

数据来源

数据集包含以下类型的数据源:

  • claude-*:Claude Code 对话记录(已匿名化)
  • ops-*:DevSecOps 定时任务输出
  • code-*:公开 GitHub 代码模式(经过过滤和脱敏处理)
  • github-domain-*:按领域抓取的仓库 README 文件
  • scraped-*:网络爬取内容(RSS、博客、CVE)
  • chroma-code-pairs-*:代码检索对
  • dpo-pairs:用于 DPO 训练的偏好对

隐私与脱敏

所有数据对均已脱敏,移除了以下内容:

  • 真实姓名、雇主名称、公司关联信息
  • API 密钥、令牌、机密信息
  • 内部 Hermes 追踪信息

标签

  • 标签:devsecops、cloud、sre、ai-engineering、thai
搜集汇总
数据集介绍
main_image_url
构建方式
Surrogate-1 Training Pairs数据集专为微调Surrogate-1模型而构建,旨在提升其在DevSecOps、云原生及泰国市场场景下的指令跟随能力。数据构建融合了多种来源,包括来自Claude Code的匿名化交互记录、DevSecOps的定时任务输出、经筛选与清洗的公开GitHub代码模式、领域爬取的仓库README文档、基于RSS、博客及CVE信息的网络爬虫数据、代码检索对,以及用于偏好优化的DPO成对数据。所有数据均经过严格的隐私清洗,移除了真实姓名、雇主信息、API密钥、令牌及内部追踪记录,确保了数据的安全性。
特点
该数据集的核心特点在于其多源异构性与领域专精性。汇聚了来自不同渠道的指令-响应对,覆盖了从代码模式到安全运维日志的广泛内容,能够有效增强模型在DevSecOps与云工程领域的专业性。此外,数据集包含用于直接偏好优化的DPO成对数据,为模型的对齐训练提供了独特资源。规模介于100万至1000万之间,搭配清洗后的高质量内容,使其成为训练安全、可靠且具备东南亚市场适配能力的AI工程助手的理想选择。
使用方法
数据集以HuggingFace数据集库的标准格式提供,默认配置为'train'拆分,数据文件以JSONL格式存储。用户可通过HuggingFace的datasets库直接加载,使用'load_dataset("axentx/surrogate-1-training-pairs")'命令即可获取。加载数据后,可采用标准微调流程对模型进行指令微调,或利用DPO成对数据进行偏好优化。建议结合Surrogate-1基座模型使用,以充分发挥数据集在DevSecOps与泰国市场场景下的定制化潜力。
背景与挑战
背景概述
Surrogate-1 Training Pairs数据集由Ashira/axentx团队于近期创建,专注于DevSecOps、云计算及泰国市场领域,旨在为Surrogate-1模型的微调提供高质量指令对。该数据集整合了Claude Code匿名化转录、DevSecOps定时任务输出、公开GitHub代码模式、领域爬取的仓库README、RSS及博客等网络爬虫数据、代码检索对以及DPO偏好对等多种来源,覆盖从安全运维到AI工程的多维场景。其发布填补了非英语背景下DevSecOps与云原生领域指令微调数据的空白,对推动泰国市场及多语言AI工程应用具有重要影响力,为开发安全可靠的智能运维系统提供了关键数据基础。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题层面,DevSecOps与云环境具有高度动态性,安全威胁和配置模式快速演变,数据集需持续更新以保持时效性;同时,泰国市场特有的语言表达和技术文档风格多样,增加了模型泛化难度。2) 构建过程中,隐私清洗成为严峻挑战——需从日志、代码和网络爬取中彻底剔除真实姓名、公司关联、API密钥及内部追踪痕迹,确保合规;此外,多源异构数据(如cron输出、GitHub模式、DPO偏好对)的格式统一与质量筛选亦需精细的自动化流程,以平衡数据规模与有效性,避免噪声引入模型偏差。
常用场景
经典使用场景
Surrogate-1训练配对数据集(surrogate-1-training-pairs)专为微调DevSecOps与云原生领域的大语言模型而构建,深度融合泰语市场本地化需求。其经典使用场景聚焦于通过结构化指令对(instruction pairs)提升模型在安全运维、持续集成/持续部署(CI/CD)流水线、云基础设施管理及威胁情报分析等任务中的表现。数据集涵盖Claude Code转录、DevSecOps定时任务输出、GitHub代码模式及Web爬取的安全公告(如CVE)等多源异构数据,经匿名化与脱敏处理,确保模型能精准理解并生成与泰语环境结合的运维指令,从而在低资源语言社区中实现高效的安全自动化与智能运维。
解决学术问题
该数据集直面多语言(尤其是泰语)与DevSecOps交叉领域的语料匮乏问题,解决了传统大语言模型在特定域(domain)和低资源语言上指令遵循能力不足的学术挑战。通过提供经过严格隐私清洗的配对数据(包括DPO偏好对),它支持研究者探索安全增强的指令微调(supervised fine-tuning)与偏好对齐(preference alignment)技术,验证模型在零样本或小样本场景下对CVE解析、代码安全审查及云配置合规性检测等任务的迁移学习效果。其公开的MIT许可协议也促进了可复现的评估基准开发,推动多语言AI工程与DevSecOps融合的理论进展。
衍生相关工作
该数据集衍生出的经典工作包括基于偏好对齐的Surrogate-1系列模型及泰语优先的DevSecOps指令微调框架。研究者利用其DPO配对部分开发了安全领域奖励模型(reward model),并通过Chroma代码检索对构建了混合检索增强生成(RAG)系统,用于动态注入最新CVE上下文。此外,数据集中集成的Claude Code脱敏转录催生了工作流感知的代码生成技术,而ops-*子集则被重用于训练时序运维数据到自然语言的转换器。这些工作共同推动了多语言、域自适应的大模型在云安全与可靠性工程中的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作