cipher-awwwards-sft25

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/Auroraventures/cipher-awwwards-sft25

下载链接

链接失效反馈

官方服务：

资源简介：

Cipher Awwwards SFT 2.5 + Real v1 是一个用于训练创意网页代码生成语言模型的监督微调（SFT）语料库。该数据集包含五个子集，分别用于合成SFT、真实SFT和GRPO训练，旨在重现Cipher管道的每个阶段。数据集的核心是`real-scraped-v1`子集，包含来自四个权威来源的真实代码，如Three.js示例、Motion One移植代码、GSAP画廊和现代CSS框架。每条记录都采用Gemma-4聊天格式，包含系统提示、用户指令和助手生成的完整HTML代码。数据集规模在1K到10K之间，适用于文本生成任务，特别关注代码、HTML、CSS、JavaScript等网页设计相关技术。数据集采用CC-BY-NC-4.0许可，主要用于研究目的，禁止商业再分发。

Cipher Awwwards SFT 2.5 + Real v1 is a supervised fine-tuning (SFT) corpus for training language models specialized in creative web code generation. This dataset comprises five subsets designed for synthetic SFT, real SFT, and GRPO training, aiming to replicate every stage of the Cipher pipeline. The core subset of the dataset is `real-scraped-v1`, which contains real code sourced from four authoritative sources: Three.js examples, ported Motion One code, GSAP galleries, and modern CSS frameworks. Each record follows the Gemma-4 chat format, including a system prompt, user instruction, and complete HTML code generated by the assistant. The dataset has a size ranging from 1K to 10K, and is suitable for text generation tasks, with a particular focus on web design-related technologies such as code, HTML, CSS, and JavaScript. The dataset is licensed under CC-BY-NC-4.0, primarily intended for research purposes, and commercial redistribution is prohibited.

创建时间：

2026-04-16

原始信息汇总

Cipher — Awwwards SFT 2.5 + Real v1 数据集概述

基本信息

数据集名称: Cipher Awwwards SFT 2.5 + Real v1
许可证: CC-BY-NC-4.0
语言: 英语
任务类别: 文本生成
规模: 1K<n<10K
标签: 代码, HTML, CSS, JavaScript, Awwwards, creative-web, cipher, kin, three.js, gsap, lenis, scrolltrigger, splittext, sft, chat-format, gemma-4, web-design

数据集配置与内容

数据集包含五个配置（splits），每个配置对应一个独立的JSONL文件，用于Cipher生成器训练流程的不同阶段。

配置详情

配置名称	数据文件	记录数	大小	主要用途
`real-scraped-v1`	`cipher-real-v1-sft.jsonl`	741	5.66 MB	v3 SFT — 真实抓取的源代码（推荐）
`synthetic-awwwards-v2`	`awwwards-stage25-v2-sft.jsonl`	96	739 KB	v2 合成SFT
`synthetic-awwwards`	`awwwards-stage25-sft.jsonl`	288	1.88 MB	v1 合成SFT
`gold-curated`	`awwwards-gold.jsonl`	~50	147 KB	手动评级的“黄金”范例
`grpo-diverse`	`awwwards-grpo-diverse.jsonl`	~100	157 KB	GRPO候选提示池

数据格式

每条记录均为Gemma-4聊天格式的三元组，包含系统提示、用户提示和助手回复。助手回复为完整的单文件HTML代码。

核心配置：`real-scraped-v1`

此配置包含来自四个权威来源的真实、经人工检查的源代码，无LLM生成的合成内容。

| 来源 | 记录数 | 教学内容 | |---|---|:---:|---| | mrdoob/three.js/examples | 578 | 标准Three.js模式 — 着色器、后处理、粒子、光线投射、物理 | | motiondivision/motion/dev | 148 | 移植到原生DOM的Motion One惯用法 | | freefrontend.com GSAP gallery | 63 | ScrollTrigger时间线、SplitText链、SVG变形 | | aura.build shells | ≤ 998 | 现代CSS脚手架、排版标记、深色模式调色板 |

加载方式

可通过datasets库加载指定配置，或使用Polars/Pandas直接读取JSONL文件。

预期用途

适用于创意代码语言模型的SFT / SimPO / GRPO / KTO训练。
适用于网页设计代码生成的评估。
适用于代码模型多样性、瑕疵和模式崩溃的研究。
不适用于原始代码的商业再分发。

许可与归属

数据集整体采用CC-BY-NC-4.0许可证。
源代码保留其各自的上游许可证（主要为MIT或许可许可证）。
使用此数据集训练的Cipher检查点采用CC-BY-NC-4.0许可证。

引用

如需引用，请使用README中提供的BibTeX条目。

更新日志

2026-04-14: 添加gold-curated和grpo-diverse配置。
2026-04-15: 添加synthetic-awwwards配置（v1合成SFT）。
2026-04-16: 添加synthetic-awwwards-v2配置（v2合成SFT，后因模板崩溃弃用）。
2026-04-18: 添加real-scraped-v1配置（真实代码SFT突破）。

搜集汇总

数据集介绍

构建方式

在创意网页代码生成领域，高质量训练数据的稀缺性促使本数据集采用多源融合的构建策略。其核心部分源自四个权威代码库的真实项目，包括Three.js官方示例、Motion One库的DOM移植案例、GSAP动画库的精选画廊以及现代CSS框架的脚手架代码。这些原始素材经过人工校验与格式统一，被转换为Gemma-4对话格式的三元组结构，确保每条记录均为实际部署过的生产级代码，完全避免了合成数据可能引入的模板化缺陷。

特点

本数据集最显著的特征在于其真实性导向，所有代码样本均来自业界公认的优秀实践，涵盖了WebGL着色器、物理模拟、滚动触发动画等前沿技术。数据以五个独立配置呈现，分别服务于合成监督微调、真实代码微调、黄金样本参考等不同训练阶段，其中真实代码分割版本包含七百余条经过人工核验的记录。每条数据遵循严格的对话格式规范，系统指令明确限定模型以单文件HTML形式输出完整实现，这种结构设计有效保障了训练目标的一致性。

使用方法

研究人员可通过Hugging Face数据集库直接加载指定配置，例如选择真实代码分割版本进行创意代码生成模型的监督微调。数据加载后可直接适配Gemma-4对话格式的训练流程，亦可通过Polars等工具以NDJSON格式进行高效批处理。该数据集主要应用于创造性代码语言模型的SFT、GRPO等训练范式，以及网页设计代码生成的评估研究，但需注意其非商业许可限制，原始代码的商用分发需遵循各自上游许可证的约束。

背景与挑战

背景概述

在创意网页设计领域，生成符合Awwwards奖项标准的高质量代码一直是前沿挑战。Cipher Awwwards SFT 2.5 + Real v1数据集由Aurora Ventures的Matt Haynes等人于2026年创建，旨在为Cipher系列创意代码生成模型提供监督微调语料。该数据集聚焦于解决现代网页设计中复杂交互与视觉效果的代码生成问题，核心研究问题在于如何让大型语言模型掌握Three.js、GSAP、Lenis等前沿技术栈的实践范式，生成具备艺术性与功能性的完整网页代码。其通过整合真实项目源码与精选示例，为创意代码生成领域提供了关键的训练资源，推动了生成式AI在专业设计场景中的应用边界。

当前挑战

该数据集旨在应对创意网页代码生成中的核心挑战：如何使模型超越平庸的模板化输出，产生具备获奖水准的多样性与创新性代码。具体挑战包括克服合成数据导致的模式坍塌问题，例如早期版本中出现的布局重复、调色板单一等模板同质化现象。在构建过程中，挑战主要源于高质量真实代码的获取与规范化，需从多个异构源码仓库中筛选、清洗并统一格式，同时确保不侵犯上游许可，并维持代码的完整性与教学价值，以构建一个既真实可靠又能有效传递高级设计范式的监督语料库。

常用场景

经典使用场景

在创意网页代码生成领域，该数据集作为监督微调（SFT）的核心语料库，专门用于训练能够生成Awwwards奖项级别网页设计的语言模型。其经典使用场景涉及将真实、高质量的Three.js、GSAP、Lenis等现代Web技术源代码，以Gemma-4聊天格式进行组织，指导模型学习复杂的交互效果、视觉动画与响应式布局的代码范式，从而生成兼具美学与功能性的单文件HTML作品。

解决学术问题

该数据集有效应对了代码生成模型中的模式崩溃与审美趋同问题。传统合成数据训练易导致模型输出陷入模板化，缺乏多样性。通过引入来自权威开源项目与设计画廊的真实代码，该语料库为研究提供了高质量监督信号，助力学术界探索如何在生成模型中保持创意代码的长尾分布，提升输出结果的多样性与创新性，对代码生成领域的模型鲁棒性与创造性研究具有显著意义。

衍生相关工作

该数据集直接衍生并支撑了Cipher系列创意代码生成器的开发，特别是其监督微调与强化学习优化阶段。相关工作包括利用该数据集进行GRPO、KTO等高级训练范式的探索，以优化模型的奖励对齐与输出质量。同时，它也为评估网页设计代码生成模型的性能、研究生成多样性等课题提供了基准数据，推动了创意代码生成这一细分领域的算法进步与工具创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集