cuarzo-100k-v2
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/Cuarzo-AI/cuarzo-100k-v2
下载链接
链接失效反馈官方服务:
资源简介:
Cuarzo-100K v2是一个包含99,683个经过双向确定性验证的Python代码与人类语言对的多语言数据集,覆盖英语、西班牙语、法语和汉语(普通话)。该数据集由Cuarzo AI发布,是其Aether引擎的第二个公开版本,用于生成代码与人类语言之间的确定性配对数据。v2版本新增了完整的汉语语言表面,扩展了验证模式,对全部四种语言表面进行了独立的往返验证,并在记录级别添加了完整的溯源检测。数据集核心内容包括原始Python源代码及其对应的四种结构化人类语言表示,每个记录都经过了严格的六阶段验收流程,包括硬性质量过滤、多阶段去重、编译检查、Aether翻译、每种语言的往返验证以及严格的验收门控。所有记录在所有四种语言表面上都通过了100%的验证检查,验证字段记录了AST等价性、编译状态和精确结构匹配。数据集还包含丰富的溯源信息,如处理时间戳、引擎构建标识符、SHA256哈希值等,确保了端到端的独立可审计性。数据来源于StarCoderData的Python流,具有较高的来源多样性,平均每个代码仓库贡献约1.2条记录。数据集中约15.88%的记录使用了机器学习库,4.90%使用了深度学习框架。该数据集旨在用于训练和微调具有验证过的多语言对的代码-语言模型,支持多语言代码生成、解释和翻译研究,特别是在非英语环境下的模型评估和基准测试,以及跨语言对齐研究。数据集在Apache 2.0许可下发布,允许商业和非商业使用。已知局限性包括:验证基于AST等价性而非完整的运行时语义等价性;源代码注释被原样保留而非翻译;当前版本仅支持Python;ML/DL相关内容占比较小。
创建时间:
2026-05-08
搜集汇总
数据集介绍

构建方式
Cuarzo-100K v2 数据集由 Cuarzo AI 团队基于其自研的 Aether 引擎,从 StarCoderData 的 Python 数据流中经由多阶段流水线精心构建而成。首先,通过严格的硬性过滤器对源码质量、结构与许可协议进行筛选,随后执行原始与结构双重去重。接着,确保源码可编译后,Aether 引擎将其转换为英语、西班牙语、法语及简体中文四种结构化自然语言表示。每一语言表面均独立经历从自然语言重构 Python 源码的往返验证,通过抽象语法树等效性、编译成功性及精确匹配三项检查,仅当所有四个语言表面全部达标时,该记录才被纳入最终数据集,最终产出了 99,683 条已验证的双向对齐样本。
特点
该数据集的核心特质在于其确定性、可验证性与多语言对等性。不同于依赖网络爬取或大语言模型概率生成的传统方案,Cuarzo-100K v2 的每一条记录均源自对 Python 源码的抽象语法树进行结构化解析,确保同一输入始终产生同一输出,且每个自然语言表示均独立经往返验证以保证功能等价。数据集覆盖英语、西班牙语、法语及简体中文四种语言,其中简体中文表面直接由 AST 生成而非翻译得来,实现真正的语义同源。此外,每条记录均携带完整的来源溯源信息,包括引擎构建标识、SHA256 哈希值与字节计数,支持端到端的独立审计,为科研与工业应用提供了前所未有的可靠性与透明度。
使用方法
开发者可通过 HuggingFace Datasets 库便捷加载该数据集,只需一行代码 `load_dataset("Cuarzo-AI/cuarzo-100k-v2")` 即可获取训练集。每条记录包含 `source_code` 字段与 `plaincode_en`、`plaincode_es`、`plaincode_fr`、`plaincode_zh` 四个自然语言字段,以及全语言表面的往返验证结果。该数据集适用于多语言代码生成、代码理解、跨语言语义对齐等场景,尤其适合用于微调非英语环境的代码模型或评估多语言代码智能体的表现。用户还可利用其中的来源元数据和哈希字段进行过滤与独立验证,以支持可复现性研究与基准测试。
背景与挑战
背景概述
Cuarzo-100K v2是由Cuarzo AI团队于2026年发布的多语言代码-自然语言对齐数据集,包含99,683条经过确定性验证的Python与英语、西班牙语、法语及简体中文的双向配对记录。该数据集基于StarCoderData的Python语料流构建,依托自有的Aether引擎,通过抽象语法树(AST)实现代码与自然语言之间的结构化等价转换,而非依赖概率生成或人工注释。其核心研究问题在于克服现有代码-语言数据集中普遍存在的噪声高、一致性差、语种单一等瓶颈,为多语言代码理解、跨语言对齐及可复现性评估提供具有严格验证机制的基准资源。该数据集采用Apache 2.0许可,已公开在HuggingFace平台,对多语种AI研究与工业应用具有基础性支撑作用。
当前挑战
该数据集所解决的领域挑战主要体现在三方面:其一,传统代码-语言数据集多来自网络爬取(如文档字符串、README)或大语言模型生成,存在噪声高、缺乏验证、功能等价性无法保证的问题,而Cuarzo-100K v2通过AST等价检验与逐语言往返验证,实现了低错性可控对齐;其二,多语言代码理解任务长期受限于英语主导的数据生态,非英语语种(尤其中文等CJK语言)代码表示研究缺乏可靠数据,该数据集在四个语种上独立生成并验证,填补了该空白;其三,数据集构建过程中需克服大规模结构化解析与可复现性挑战,Aether引擎实现了确定性生成与完备溯源记录,确保每一记录均可独立审计。
常用场景
经典使用场景
在代码智能与多语言自然语言处理交叉领域,Cuarzo-100K-v2数据集的核心设计初衷在于为代码与人类语言之间的确定性对齐提供高质量训练素材。其最经典的使用场景是训练和微调代码-语言模型,使得模型能够在英文、西班牙文、法文和简体中文四种语言表面上学习从Python源码到结构化语义描述的精确映射。每一对数据都经过基于抽象语法树的往返验证,确保功能等价性,从而为多语言代码生成、代码解释以及跨语言代码翻译研究奠定了坚实基础。该数据集特别适合需要高保真度、可审计训练数据的实验室和工业团队,用于提升模型在非英语环境下的代码理解能力。
实际应用
在实际应用层面,该数据集赋能了一系列工业级场景。全球企业通常运营在多种语言环境中,而多数公开数据集仅覆盖英语,Cuarzo-100K-v2使得团队能够训练出理解并解释中文、西班牙文和法文代码的AI助手,服务于跨国软件开发中的文档自动生成、代码审查辅助和多语言技术问答系统。此外,其完整的出处追踪字段——包括每一条记录的引擎构建标识、时间戳和哈希值——支持端到端的可审计性,这对于金融、医疗和法律等需要严格合规的行业至关重要。数据集还可用于定制化领域模型,例如针对生物医学Python或金融分析工具链生成经过验证的配对数据。
衍生相关工作
Cuarzo-100K-v2的发布为多项经典工作提供了衍生基础。在模型评估方面,研究者可利用其独立验证的语言表面构建非英语环境下的代码理解基准,例如扩展HumanEval和MBPP到中文、西班牙文和法文场景。在跨语言对齐研究中,该数据集成为拉丁语系与CJK语系代码语义表示对比实验的关键资源。此外,其完整的出处信息催生了一类新的可复现性研究——学者得以按引擎版本、处理时间或往返字符数过滤数据,独立验证每一条记录的等价性链条。Aether引擎本身的确定性生成方法也启发了后续工作,促使学界探索将形式化验证引入更多编程语言和多语言数据生产流程。
以上内容由遇见数据集搜集并总结生成



