unity-dev-instructions
收藏Unity Developer Instructions 数据集概述
数据集基本信息
- 数据集名称:Unity Developer Instructions
- 发布者:OneImmersive
- 发布日期:2024年
- 发布平台:HuggingFace
- 数据集地址:https://huggingface.co/datasets/vishnuOI/unity-dev-instructions
- 许可证:CC-BY-4.0
- 语言:英语
- 数据规模:10K<n<100K
数据集简介
这是一个用于Unity游戏开发的综合性指令微调数据集,涵盖C#脚本编写、XR/VR开发、物理、动画、渲染、UI工具包和性能优化。
数据集规模与划分
| 划分 | 数量 |
|---|---|
| 训练集 | 65,140 |
| 测试集 | 3,428 |
| 总计 | 68,568 |
数据来源与分布
来源分布
| 来源 | 数量 |
|---|---|
| unity_docs | 59,494 |
| stackoverflow | 6,709 |
| github | 2,365 |
类别分布
| 类别 | 数量 |
|---|---|
| scripting | 22,812 |
| rendering | 20,348 |
| xr | 7,253 |
| physics | 4,852 |
| editor | 4,024 |
| ui | 2,454 |
| math | 1,803 |
| animation | 1,649 |
| performance | 1,286 |
| audio | 793 |
| general | 749 |
| input | 394 |
| networking | 151 |
数据结构
每个数据行是一个包含以下字段的JSON对象: json { "id": "so_12345", "source": "stackoverflow", "category": "physics", "system": "You are an expert Unity game developer...", "instruction": "How do I detect collision between two objects?", "response": "Use OnCollisionEnter..." }
字段说明
| 字段 | 类型 | 描述 |
|---|---|---|
id |
字符串 | 带有来源前缀的唯一标识符 |
source |
字符串 | 来源:stackoverflow、unity_docs、hf_ibranze_v2、github |
category |
字符串 | 主题类别(见上方分布) |
system |
字符串 | 助手系统提示 |
instruction |
字符串 | 问题或任务 |
response |
字符串 | 答案或解决方案 |
数据来源详情
- Stack Overflow [unity3d]:通过Stack Exchange API v2.3获取。筛选分数≥2且已有采纳答案的问题。HTML格式已剥离并转换为Markdown。问题和采纳答案构成指令/响应对。
- ibranze/codellama_unity3d_v2:来自HuggingFace Hub的高质量、人工整理的Unity问答对。直接从
ibranze/codellama_unity3d_v2下载。 - Unity脚本API文档:从
docs.unity3d.com/ScriptReference/抓取。每个类页面生成:一个概述对(类描述+示例)和每个成员(属性/方法描述)的一个对。 - GitHub Unity C#仓库:通过GitHub API从MIT/Apache许可的仓库中提取的Unity C#脚本,格式化为代码生成任务。
许可证信息
- 本数据集根据CC-BY-4.0许可证发布。
- Stack Overflow内容根据CC-BY-SA 4.0许可证授权。
- Unity文档版权归Unity Technologies所有,为研究/教育目的抓取。
- GitHub代码来自宽松许可证(MIT/Apache 2.0)的仓库。
ibranze/codellama_unity3d_v2根据其原始许可证重新分发。
使用方式
使用🤗 Datasets加载
python from datasets import load_dataset ds = load_dataset("vishnuOI/unity-dev-instructions")
按类别或来源筛选
python xr_data = dataset["train"].filter(lambda x: x["category"] == "xr") so_data = dataset["train"].filter(lambda x: x["source"] == "stackoverflow")
引用格式
bibtex @dataset{oneimmersive_unity_dev_instructions_2024, title = {Unity Developer Instructions}, author = {OneImmersive}, year = {2024}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/vishnuOI/unity-dev-instructions}, license = {CC-BY-4.0}, note = {Instruction-tuning dataset for Unity game development} }
数据集构建
使用开源流水线构建:https://github.com/oneimmersive/unity-dataset-pipeline




