Wafik20/minecraft-biomes

Name: Wafik20/minecraft-biomes
Creator: Wafik20
Published: 2026-04-24 21:49:38
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Wafik20/minecraft-biomes

下载链接

链接失效反馈

官方服务：

资源简介：

Minecraft Biomes (RGBD, pseudo-labeled)数据集包含伪标记的RGBD截图，覆盖了12个主要的Minecraft生物群落类别。每个样本是一个640×360分辨率的(RGB, depth)对。数据来源包括从zid8/syntheticMinecraftRGBD收集的1908个配对(rgb, depth)样本，以及通过Gemma-3-4B模型生成的标签。标签质量通过分层人工审查验证，总体标签准确率为96.0%。数据集布局包括训练集、验证集和测试集，分别包含1528、190和190个样本。数据集中存在严重的类别不平衡问题，海洋类别占数据集的54%。已知的局限性包括伪标签而非人工标注、小类别的验证/测试样本量极小以及生物群落样本不平衡。

The Minecraft Biomes (RGBD, pseudo-labeled) dataset contains pseudo-labeled RGBD screenshots covering 12 broad Minecraft biome categories. Each sample is an (RGB, depth) pair at 640×360 resolution. The data sources include 1908 paired (rgb, depth) samples collected from zid8/syntheticMinecraftRGBD, and labels generated by a Gemma-3-4B model. Label quality was validated via stratified human review, with an overall label accuracy of 96.0%. The dataset is organized into training, validation, and test sets with 1528, 190, and 190 samples respectively. There is severe class imbalance, with the ocean class alone making up 54% of the dataset. Known limitations include pseudo-labels instead of human annotations, very small val/test splits for minor classes, and an unbalanced sample of biomes.

提供机构：

Wafik20

搜集汇总

数据集介绍

构建方式

在游戏场景理解与生物群系分类的研究前沿，合成视觉数据因其可控性与多样性而备受青睐。minecraft-biomes数据集正是基于这一理念构建而成：其RGBD帧源自MineRL框架下采集的syntheticMinecraftRGBD数据集，共包含1908组640×360分辨率的像素对齐（RGB与深度图）样本。标签生成采用伪标注策略，利用经LoRA微调的Gemma-3-4B模型对原始图像进行自动分类，并额外补充约160帧人工筛选的海洋场景帧以修正模型将海洋误判为山地的系统性误差。最终标注结果经分层抽样人工审核（374样本验证），整体准确率达96.0%。

特点

该数据集的核心特征在于其多模态伪标注性质与严重类别不均衡的分布形态。涵盖河流、针叶林、丛林、海洋等12类Minecraft生物群系，其中海洋类别占据54%样本（训练集816例），而沼泽仅20例，呈现极端长尾分布。深度图以float32格式记录0-255范围的距离值，与RGB图像完全对齐，无需额外缩放预处理。值得注意的是，河流类别标注错误率最高（约19%），其余类别下限置信度均不低于78%。小样本类别（如沼泽）的验证与测试集仅含2-4例，使得统计指标可靠性受限。

使用方法

数据集采用标准的train/val/test三目录布局（比例80%/10%/10%），每个类别下分别存放RGB图像（uint8 PNG格式）与深度数组（float32 NPY格式）。使用者可直接加载像素对齐的多模态数据进行分类模型训练，但需注意类别不均衡问题——建议应用加权损失函数或重采样策略以避免模型倾向于预测占主导地位的海洋类别。由于伪标注存在约4%的预期误差，尤其对河流类别需谨慎对待。对于统计意义不足的小类别（n<10），推荐将其合并评估或仅作为定性参考。引用时需同时注明本数据集及原始RGBD数据来源。

背景与挑战

背景概述

在计算机视觉与游戏智能交叉研究领域，基于合成环境的数据集为场景理解与迁移学习提供了独特的实验平台。Minecraft Biomes 数据集由研究者 Wafik 于 2026 年创建，旨在利用 Minecraft 这一高度可控的虚拟世界，构建一个包含 RGB 图像与深度信息的伪标注生物群落分类数据集。该数据集源自 zid8/syntheticMinecraftRGBD 中的 1908 对样本，覆盖河流、针叶林、丛林、海洋等 12 类广泛生物群落，通过 Gemma-3-4B 模型微调后生成标签，并经 374 份人工分层审核验证，整体标注准确率达 96.0%。其核心研究问题在于探索低成本、可扩展的伪标注流程在细粒度环境分类中的有效性，为游戏内场景解析、机器人导航及域自适应研究提供了重要基准。

当前挑战

该数据集面临的挑战可从领域问题与构建过程两个维度剖析。在领域问题方面，Minecraft 生物群落分类本质上是一个严重类别不均衡的细粒度图像分类任务——海洋类样本占总量的 54%，而沼泽、冻原等类别仅含 20 余个训练样本，这极易导致模型对多数类产生偏见，且小类别的验证/测试集统计量（如沼泽仅有 2 个验证样本）缺乏可靠性。在构建过程中，伪标注策略虽降低了人工成本，却引入了约 4% 的标签噪声，尤其是河流类的错误率高达 19%；同时，底层 MineRL 会话偏向海洋探索，使得数据集不能代表 Minecraft 世界生成的真实际遇分布。此外，深度值源于源数据集约定（0–255 范围，可能截断于 255 块），限制了其在密集预测任务中的直接泛化能力。

常用场景

经典使用场景

在机器学习和计算机视觉领域，minecraft-biomes数据集为基于RGB-D图像的场景分类任务提供了独特的研究平台。研究者可借助该数据集训练高性能的多模态分类模型，通过融合彩色图像与深度信息来准确识别Minecraft游戏中12类广泛定义的生物群系。该数据集尤其适合验证伪标签技术在大规模视觉分类中的有效性，以及探索类别不平衡场景下鲁棒性算法的设计。

实际应用

在实际应用层面，minecraft-biomes数据集可直接服务于游戏AI的自主导航与决策系统开发，例如辅助智能体通过视觉感知自动识别所处环境并调整探索策略。其基于RGB-D的标注范式也为机器人领域中的地形分类提供了可迁移的预训练资源，降低了对真实世界标注数据的依赖，促进了仿真到现实迁移技术在环境理解中的落地。

衍生相关工作

该数据集衍生出一系列影响深远的研究工作，包括基于伪标签与人类反馈的迭代优化方法，大幅提升了弱监督标注的质量。Gemma-3-4B模型的LoRA微调策略被后续工作广泛借鉴，验证了小型语言模型在视觉标注任务中的潜力。同时，针对河流类别的低准确率而引入的人工校正框架，催生了主动学习与错误分析相结合的标签修正范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集