DeepFurniture|家具理解数据集|计算机视觉数据集
收藏DeepFurniture 数据集
概述
DeepFurniture 数据集是一个大规模的家具理解数据集,包含约 24,000 张室内图像、170,000 个家具实例和 20,000 个独特的家具身份。所有图像均由 COOHOM 的专业渲染引擎生成,具有高真实感的渲染效果和高品质的 3D 家具模型。
关键特性
- 照片级真实感渲染:所有室内场景均使用专业渲染引擎渲染,提供真实的照明、阴影和纹理。
- 高质量 3D 模型:每个家具身份均源自专业的 3D 模型,确保精确的几何和材质表示。
- 丰富的注释:在图像、实例和身份级别提供分层注释。
数据集概览
DeepFurniture 提供三个级别的分层注释:
- 图像级别:专业渲染的室内场景,包含场景类别和深度图。
- 实例级别:场景中家具实例的边界框和逐像素掩码。
- 身份级别:3D 家具模型的高质量渲染预览。
统计数据
- 总场景数:约 24,000 张照片级真实感渲染图像
- 总家具实例数:约 170,000 个在场景中注释的实例
- 独特家具身份数:约 20,000 个 3D 模型,带有预览渲染
- 类别:11 种家具类型
- 风格标签:11 种不同风格
基准测试
该数据集支持三个主要基准测试:
- 家具检测/分割
- 家具实例检索
- 家具检索
数据集结构
数据集按块组织,以便于高效分发:
data/ ├── scenes/ # 照片级真实感渲染的室内场景 ├── furnitures/ # 高质量 3D 模型预览渲染 ├── queries/ # 从场景中裁剪的家具实例图像 └── metadata/ # 数据集信息和索引 ├── categories.json # 家具类别定义 ├── styles.json # 风格标签定义 ├── dataset_info.json # 数据集统计信息 ├── furnitures.jsonl # 家具元数据 └── *_index.json # 块索引文件
使用数据集
1. 下载和解压
bash
克隆仓库
git lfs install # 确保安装了 Git LFS git clone https://huggingface.co/datasets/byliu/DeepFurniture
2. 数据格式
场景数据
- 图像:JPG 格式的 RGB 图像
- 深度:PNG 格式的深度图
- 注释:包含以下内容的 JSON 文件: json { "instances": [ { "numberID": 1, "boundingBox": { "xMin": int, "xMax": int, "yMin": int, "yMax": int }, "styleIDs": [int], "styleNames": [str], "segmentation": [int], # COCO 格式 RLE 编码 "identityID": int, "categoryID": int, "categoryName": str } ] }
家具数据
- JPG 格式的 3D 模型预览图像
- 包含类别和风格信息的 JSONL 格式元数据
查询数据
- 从场景中裁剪的家具实例图像
- 文件名格式:
[furnitureID]_[instanceIndex]_[sceneID].jpg
3. 加载数据集
python from deepfurniture import DeepFurnitureDataset
初始化数据集
dataset = DeepFurnitureDataset("path/to/uncompressed_data")
访问场景
scene = dataset[0] print(f"Scene ID: {scene[scene_id]}") print(f"Number of instances: {len(scene[instances])}")
访问家具实例
for instance in scene[instances]: print(f"Category: {instance[category_name]}") print(f"Style(s): {instance[style_names]}")
4. 可视化室内场景
python visualize_html.py --dataset ./uncompressed_data --scene_idx 101 --output scene_101.html

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
农业农作物生长全周期数据集
农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。
浙江大数据交易服务平台 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录