JanusCode-800K
收藏Hugging Face2026-05-17 更新2026-05-18 收录
下载链接:
https://huggingface.co/datasets/QiushiSun/JanusCode-800K
下载链接
链接失效反馈官方服务:
资源简介:
JanusCoder是一个面向代码智能的基础视觉-编程接口数据集,目前正在上传中。该数据集包含多个数据分割,可能来源于不同的任务或场景,具体包括:web_generate(网络生成)、demo(演示)、web_edit(网络编辑)、svg(可缩放矢量图形)、manim(数学动画)、python_chart(Python图表)和wolfram(可能与Wolfram语言相关)。这些分割表明数据集涉及代码生成、编辑、可视化以及特定领域(如数学动画、科学计算)的编程任务。该数据集旨在支持视觉与程序化接口相结合的代码智能研究。
JanusCoder is a foundational vision-programming interface dataset for code intelligence, currently in the process of being uploaded. It contains multiple data splits that may originate from different tasks or scenarios, including: web_generate, demo, web_edit, svg, manim, python_chart, and wolfram. These splits indicate that the dataset likely involves programming tasks such as code generation, editing, visualization, and specific domains like mathematical animation and scientific computing. The dataset is designed to support research in code intelligence that combines visual and programmatic interfaces.
创建时间:
2026-05-04
原始信息汇总
数据集概述:JanusCode-800K
数据集名称:JanusCode-800K
发布机构:QiushiSun 等
数据集描述: 该数据集是 JanusCoder 项目的一部分,旨在为代码智能构建一个基础的视觉-程序接口。研究人员正在上传该数据集,目前仍在更新中。
数据集配置与划分:
数据集采用单一配置(default),包含以下 7 个拆分(split):
| 拆分名称 | 数据文件路径 |
|---|---|
web_generate |
data/web_generate-* |
demo |
data/demo-* |
web_edit |
data/web_edit-* |
svg |
data/svg-* |
manim |
data/manim-* |
python_chart |
data/python_chart-* |
wolfram |
data/wolfram-* |
引用信息: 如果您使用本数据集,请引用以下论文:
bibtex @article{sun2025januscoder, title={JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence}, author={Sun, Qiushi and Gong, Jingyang and Liu, Yang and Chen, Qiaosheng and Li, Lei and Chen, Kai and Guo, Qipeng and Kao, Ben and Yuan, Fei}, journal={arXiv preprint arXiv:2510.23538}, year={2025} }
数据集地址:https://huggingface.co/datasets/QiushiSun/JanusCode-800K
搜集汇总
数据集介绍

构建方式
JanusCode-800K数据集围绕视觉与程序化接口的融合思想精心构建,旨在弥合代码智能中视觉信息与编程逻辑之间的鸿沟。其构建过程覆盖多种数据来源与任务类型,包括从网页生成、网页编辑、SVG图形、Manim动画、Python图表到Wolfram语言等多个维度,每个维度对应一个独立的数据分片。数据集通过自动化的脚本与模板化流程,从实际应用场景中抽取图像-代码配对样本,确保每个样本均具备明确的视觉输入与对应的程序化输出,为多模态代码生成提供了结构化的训练基础。
特点
该数据集的核心特点在于其多模态、多任务的结构设计,涵盖web_generate、web_edit、svg、manim、python_chart、wolfram等多种配置,每种配置对应特定的代码生成或编辑场景。数据集中包含演示样本以展示典型用法,增强了可用性与示范性。此外,其分片存储方式便于研究者根据任务需求选择特定子集,而整体规模达到800K,为大规模模型训练提供了充足的数据支撑,同时保持了各子集之间风格与内容上的多样性。
使用方法
使用JanusCode-800K时,研究者可通过HuggingFace数据集加载接口,按照config_name指定所需的子集,如'default'配置下各split分别对应不同任务类型的数据文件。数据集支持直接加载用于多模态代码模型的训练与评估,用户可根据任务目标选取特定分片,例如使用svg分片训练SVG代码生成模型,或利用manim分片进行动画描述代码的生成。数据已按标准化格式组织,便于集成进现有的深度学习训练流程中,配合图像预处理与代码tokenizer即可启动模型学习过程。
背景与挑战
背景概述
JanusCode-800K数据集由孙启实、龚敬阳等研究人员于2025年发布,旨在构建面向代码智能的基础性视觉-程序化接口。该数据集隶属于JanusCoder项目,其核心研究问题在于弥合视觉信息与程序代码之间的语义鸿沟,使得模型能够在理解可视化内容(如网页截图、图表、SVG图形及Manim动画)的同时,生成或编辑对应的代码。通过整合多源异构数据,JanusCode-800K为多模态代码生成与编辑任务提供了关键训练资源,对推动代码大语言模型在视觉感知与程序合成交叉领域的发展具有开创性影响。
当前挑战
该数据集所解决的领域问题主要在于如何实现视觉输入到程序化输出的端到端映射,克服传统代码模型仅依赖文本描述而缺乏视觉上下文理解的局限。构建过程中,团队面临多模态数据对齐的高难度挑战,例如将网页设计截图精确对应到HTML/CSS代码、将数学动画描述转化为可执行的Manim脚本等。此外,数据涵盖了SVG矢量图、Python图表、Wolfram语言等异构格式,需在保证数据质量与多样性的同时,解决不同代码范式的统一表示难题,这对数据清洗与标注一致性提出了严苛要求。
常用场景
经典使用场景
在代码智能与程序合成领域,JanusCode-800K数据集被广泛用于训练能够将视觉信号与程序逻辑深度融合的模型。该数据集涵盖了网页生成、SVG图形绘制、Manim动画创作、Python图表制作及Wolfram语言表达式等多种模态,常作为评估多模态代码生成模型性能的基准。研究者利用其丰富的文本-代码-图像三元组,探究如何在可视化编程界面中实现从自然语言描述到可执行代码的端到端转换,为构建具备视觉理解能力的编程助手奠定了数据基础。
解决学术问题
该数据集解决了跨模态代码语义理解与生成中的关键学术难题,即如何将非结构化的视觉信息(如网页截图、数学动画、图表示例)与结构化程序代码进行对齐与转换。通过提供大规模、多样化的视觉程序样本,JanusCode-800K有效支持了代码智能领域中的少样本学习、多任务泛化及视觉-程序接口表征研究。其发布显著推动了学界对视觉驱动代码生成、程序可视化编辑及代码审美评估等研究方向的探索,弥补了传统代码数据集缺乏视觉模态的缺憾。
衍生相关工作
围绕JanusCode-800K数据集,衍生了一系列重要的学术工作,包括提出了多模态代码预训练模型JanusCoder,开创性地实现了视觉-程序双通道的联合表征学习。相关研究进一步探索了基于该数据集的零样本代码生成、视觉到SVG的程序合成技术,以及跨领域代码迁移学习策略。此外,部分工作将数据集用于评估大语言模型在视觉编程接口任务上的表现,并对比分析了不同编码器-解码器架构对图文代码三元组建模能力的差异,推动了代码智能领域从纯文本向多模态理解范式的转变。
以上内容由遇见数据集搜集并总结生成



