five

unity-dev-instructions

收藏
Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/vishnuOI/unity-dev-instructions
下载链接
链接失效反馈
官方服务:
资源简介:
Unity开发者指令数据集是一个专为Unity游戏开发设计的综合性指令调优数据集,涵盖C#脚本编写、XR/VR开发、物理系统、动画、渲染、UI工具包及性能优化等多个领域。数据集包含68,568条样本,其中训练集65,140条,测试集3,428条。数据来源主要包括Unity官方文档(59,494条)、Stack Overflow(6,709条)和GitHub(2,365条)。每条数据均为JSON格式,包含唯一标识符(id)、数据来源(source)、类别(category)、系统提示(system)、指令问题(instruction)和解决方案(response)六个字段。数据集适用于文本生成和问答任务,特别适合用于训练和微调游戏开发相关的AI助手。数据采集过程经过严格的质量控制,包括Stack Overflow问题评分筛选(≥2分且有采纳答案)、文档结构化提取以及代码仓库的许可审查。数据集采用CC-BY-4.0许可协议发布。
创建时间:
2026-04-04
原始信息汇总

Unity Developer Instructions 数据集概述

数据集基本信息

  • 数据集名称:Unity Developer Instructions
  • 发布者:OneImmersive
  • 发布日期:2024年
  • 发布平台:HuggingFace
  • 数据集地址:https://huggingface.co/datasets/vishnuOI/unity-dev-instructions
  • 许可证:CC-BY-4.0
  • 语言:英语
  • 数据规模:10K<n<100K

数据集简介

这是一个用于Unity游戏开发的综合性指令微调数据集,涵盖C#脚本编写、XR/VR开发、物理、动画、渲染、UI工具包和性能优化。

数据集规模与划分

划分 数量
训练集 65,140
测试集 3,428
总计 68,568

数据来源与分布

来源分布

来源 数量
unity_docs 59,494
stackoverflow 6,709
github 2,365

类别分布

类别 数量
scripting 22,812
rendering 20,348
xr 7,253
physics 4,852
editor 4,024
ui 2,454
math 1,803
animation 1,649
performance 1,286
audio 793
general 749
input 394
networking 151

数据结构

每个数据行是一个包含以下字段的JSON对象: json { "id": "so_12345", "source": "stackoverflow", "category": "physics", "system": "You are an expert Unity game developer...", "instruction": "How do I detect collision between two objects?", "response": "Use OnCollisionEnter..." }

字段说明

字段 类型 描述
id 字符串 带有来源前缀的唯一标识符
source 字符串 来源:stackoverflowunity_docshf_ibranze_v2github
category 字符串 主题类别(见上方分布)
system 字符串 助手系统提示
instruction 字符串 问题或任务
response 字符串 答案或解决方案

数据来源详情

  1. Stack Overflow [unity3d]:通过Stack Exchange API v2.3获取。筛选分数≥2且已有采纳答案的问题。HTML格式已剥离并转换为Markdown。问题和采纳答案构成指令/响应对。
  2. ibranze/codellama_unity3d_v2:来自HuggingFace Hub的高质量、人工整理的Unity问答对。直接从ibranze/codellama_unity3d_v2下载。
  3. Unity脚本API文档:从docs.unity3d.com/ScriptReference/抓取。每个类页面生成:一个概述对(类描述+示例)和每个成员(属性/方法描述)的一个对。
  4. GitHub Unity C#仓库:通过GitHub API从MIT/Apache许可的仓库中提取的Unity C#脚本,格式化为代码生成任务。

许可证信息

  • 本数据集根据CC-BY-4.0许可证发布。
  • Stack Overflow内容根据CC-BY-SA 4.0许可证授权。
  • Unity文档版权归Unity Technologies所有,为研究/教育目的抓取。
  • GitHub代码来自宽松许可证(MIT/Apache 2.0)的仓库。
  • ibranze/codellama_unity3d_v2根据其原始许可证重新分发。

使用方式

使用🤗 Datasets加载

python from datasets import load_dataset ds = load_dataset("vishnuOI/unity-dev-instructions")

按类别或来源筛选

python xr_data = dataset["train"].filter(lambda x: x["category"] == "xr") so_data = dataset["train"].filter(lambda x: x["source"] == "stackoverflow")

引用格式

bibtex @dataset{oneimmersive_unity_dev_instructions_2024, title = {Unity Developer Instructions}, author = {OneImmersive}, year = {2024}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/vishnuOI/unity-dev-instructions}, license = {CC-BY-4.0}, note = {Instruction-tuning dataset for Unity game development} }

数据集构建

使用开源流水线构建:https://github.com/oneimmersive/unity-dataset-pipeline

搜集汇总
数据集介绍
main_image_url
构建方式
在游戏开发领域,Unity作为主流引擎,其开发知识体系庞杂且分散。该数据集通过系统化采集与整合,构建了一个覆盖Unity开发多维度知识的指令微调数据集。具体构建过程融合了四个核心来源:首先从Unity官方脚本API文档中提取类与成员描述,生成结构化问答对;其次利用Stack Exchange API爬取Stack Overflow上评分较高的Unity相关问题及其采纳答案,经格式清洗后形成指令-响应对;同时整合了HuggingFace平台上经人工标注的高质量Unity问答数据集;此外还从GitHub上筛选了采用宽松许可证的Unity C#代码仓库,将其转化为代码生成任务。所有数据经过规范化处理、去重与质量过滤,最终形成包含68,568条样本的标准化数据集。
使用方法
该数据集主要服务于大语言模型在Unity开发领域的指令微调与专业化能力构建。研究人员或开发者可使用HuggingFace Datasets库直接加载数据集,并利用其提供的训练集与测试集进行模型训练与评估。数据集支持灵活的过滤操作,例如可按“xr”或“physics”等类别,或按“stackoverflow”等来源筛选特定子集,以满足不同的训练需求。在微调实践中,可结合TRL库的SFTTrainer,通过自定义的提示模板将数据格式化为模型可接受的对话序列,对如CodeLlama等代码生成模型进行监督式微调,从而赋予模型专业的Unity开发问题解答与代码生成能力。
背景与挑战
背景概述
在游戏开发与扩展现实技术迅猛发展的背景下,Unity引擎作为跨平台交互内容创作的核心工具,其复杂的开发体系对开发者提出了持续学习与适应的要求。Unity Developer Instructions数据集于2024年由OneImmersive团队构建并发布,旨在为指令微调提供高质量、结构化的专业语料。该数据集汇聚了Unity官方文档、Stack Overflow社区问答以及GitHub开源代码,覆盖C#脚本编写、XR/VR开发、物理模拟、动画渲染及性能优化等关键领域,共计68,568条指令-响应对。其核心研究问题聚焦于如何通过大规模、多源异构的专业数据,赋能大型语言模型深入理解Unity开发的具体语境与复杂需求,从而推动智能编程助手在游戏与沉浸式内容创作领域的应用,为自动化代码生成与实时技术答疑提供了重要的数据基础。
当前挑战
该数据集致力于解决游戏开发领域中智能编程辅助的挑战,即如何让语言模型精准理解并生成符合Unity引擎特定范式与实时交互需求的代码解决方案。具体而言,挑战体现在模型需跨越通用编程知识与领域专有技术之间的语义鸿沟,准确处理涉及物理引擎、图形渲染、跨平台输入等复杂情境的多样化查询。在构建过程中,团队面临多源数据融合与质量控制的难题:需从Stack Overflow中筛选高质量问答对,从Unity官方文档中提取结构化的API描述与示例,并整合GitHub中的实际项目代码,同时确保不同来源间格式统一、信息准确且无冗余。此外,数据标注需平衡技术深度与广度,涵盖从基础脚本到高级XR开发的广泛主题,并维护严格的许可合规性,这进一步增加了数据集构建的复杂性与严谨性要求。
常用场景
经典使用场景
在游戏开发与交互式内容创作领域,Unity引擎作为行业标准工具,其复杂的功能模块与脚本系统常使开发者面临技术挑战。Unity Developer Instructions数据集通过整合官方文档、社区问答与开源代码,构建了一个指令微调数据集,其经典使用场景在于训练大型语言模型以生成高质量的Unity开发指导。该数据集覆盖C#脚本编写、XR/VR开发、物理模拟、动画系统及性能优化等核心主题,能够为开发者提供即时、准确的代码示例与解决方案,显著提升开发效率与学习曲线。
解决学术问题
该数据集有效解决了游戏开发与人工智能交叉研究中的若干关键问题。在学术层面,它针对代码生成与自然语言理解任务,提供了结构化、多源异构的指令-响应对,有助于探索模型在特定领域知识下的泛化能力与推理精度。其意义在于弥合了通用语言模型与专业开发需求之间的鸿沟,推动了领域自适应学习与指令微调方法的发展,为游戏引擎智能化辅助工具的研发奠定了数据基础,并对教育技术中技能传递模式产生了深远影响。
实际应用
在实际应用层面,该数据集能够直接赋能游戏开发工作室与独立创作者。通过基于此数据集微调的模型,开发者可以快速获得关于Unity特定功能(如碰撞检测、着色器编写或XR交互实现)的代码片段与最佳实践建议,减少对分散文档的依赖。此外,在虚拟现实培训、模拟仿真构建以及交互式教育内容制作中,此类模型能够辅助非专业编程人员高效实现复杂交互逻辑,从而加速原型开发并降低技术门槛。
数据集最近研究
最新研究方向
在游戏开发与扩展现实技术融合的浪潮中,Unity-dev-instructions数据集凭借其涵盖C#脚本、XR/VR开发、物理引擎及渲染优化等多元主题的结构化指令对,正成为驱动领域专用大语言模型微调的关键资源。当前研究前沿聚焦于利用此类高质量指令数据,训练能够理解复杂游戏逻辑并生成可靠代码的智能助手,以应对元宇宙内容创作与实时三维交互应用开发的迫切需求。该数据集与CodeLlama等开源模型的结合,不仅加速了自动化游戏开发工具的演进,也为降低XR内容创作门槛、推动沉浸式体验普及提供了坚实的技术支撑,在人工智能赋能创意产业的进程中具有显著的实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作