hotel-images-200k-50k-hotels

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/alperctnkaya/hotel-images-200k-50k-hotels

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含酒店相关的图片及其元数据信息，分为default、detr和yolo三种配置。default配置包含图片ID、酒店ID、URL、来源、时间戳和图片本身。detr和yolo配置在此基础上增加了目标检测相关信息，如置信度得分、类别名称、类别索引、边界框坐标、区域面积和对象数量。每个配置的训练集都包含146298个示例。

创建时间：

2025-11-27

原始信息汇总

数据集概述

基本信息

数据集名称: hotel-images-200k-50k-hotels
数据集地址: https://huggingface.co/datasets/alperctnkaya/hotel-images-200k-50k-hotels
总示例数: 146,298
数据格式: 包含图像与元数据的结构化数据集

数据集配置与结构

数据集提供三种配置，每种配置对应不同的特征集。

配置一：default

特征字段:
- image_id: 图像ID (int64)
- hotel_id: 酒店ID (int64)
- url: 图像来源URL (string)
- source: 来源标识 (string)
- timestamp: 时间戳 (string)
- image: 图像数据 (image)
数据分割: 仅包含训练集 (train)
分割大小: 146,298 个示例
数据集大小: 5,340,479,895.458 字节
下载大小: 5,048,958,408 字节
数据文件路径: data/train-*

配置二：detr

特征字段:
- 包含 default 配置全部特征
- 额外添加目标检测相关特征：
  - scores: 检测得分列表 (list: float64)
  - class_names: 类别名称列表 (list: string)
  - class_idx: 类别索引列表 (list: int64)
  - boxes: 边界框坐标列表 (list: list: float64)
  - areas: 区域面积列表 (list: float64)
  - num_objects: 对象数量列表 (list: int64)
数据分割: 仅包含训练集 (train)
分割大小: 146,298 个示例
数据集大小: 4,024,049,011 字节
下载大小: 3,973,904,374 字节
数据文件路径: detr/train-*

配置三：yolo

特征字段:
- 包含 default 配置全部特征
- 额外添加目标检测相关特征（同 detr 配置）：
  - scores: 检测得分列表 (list: float64)
  - class_names: 类别名称列表 (list: string)
  - class_idx: 类别索引列表 (list: int64)
  - boxes: 边界框坐标列表 (list: list: float64)
  - areas: 区域面积列表 (list: float64)
  - num_objects: 对象数量列表 (list: int64)
数据分割: 仅包含训练集 (train)
分割大小: 146,298 个示例
数据集大小: 4,028,583,592 字节
下载大小: 3,975,947,776 字节
数据文件路径: yolo/train-*

核心特征说明

图像标识: 每张图像具有唯一的 image_id 和对应的 hotel_id。
来源信息: 提供图像的网络来源 (url) 和来源标识 (source)。
时间信息: 记录 timestamp。
图像数据: 原始图像存储于 image 字段。
检测数据 (detr 和 yolo 配置): 提供基于目标检测模型（DETR 和 YOLO）的预计算输出，包括检测框、类别和置信度。

搜集汇总

数据集介绍

构建方式

在酒店视觉识别领域，hotel-images-200k-50k-hotels数据集通过系统化采集与标注流程构建而成。该数据集整合了来自多个公开来源的酒店图像，每张图像均关联唯一的酒店标识与元数据信息，包括图像来源、时间戳及原始URL。构建过程中，数据集特别提供了两种预处理的配置版本，分别采用DETR和YOLO目标检测模型进行自动化标注，生成了包含边界框、类别索引及置信度分数在内的细粒度物体检测标签，从而形成了结构统一且便于机器学习模型直接使用的视觉数据资源。

特点

该数据集的核心特征在于其规模与多样性，涵盖了约20万张图像，涉及5万家酒店，为酒店场景下的视觉研究提供了丰富的样本基础。图像内容覆盖酒店内外环境、客房设施及公共区域，具有较高的场景复杂性。技术层面上，数据集除了提供原始图像外，还包含两个经过预标注的版本，分别集成了DETR和YOLO模型的检测结果，这些标注信息包括物体类别、边界框坐标及检测置信度，为研究者省去了繁琐的标注步骤，可直接用于模型训练或评估，显著提升了数据使用的便捷性与效率。

使用方法

使用该数据集时，研究者可根据需求选择不同的配置版本。若仅需原始图像及元数据，可加载默认配置；若需直接进行物体检测或识别任务，则可选用DETR或YOLO配置，这些版本已包含预生成的检测框与类别标签。数据以标准图像格式存储，支持通过HuggingFace数据集库直接加载与迭代，便于集成到现有的深度学习框架中。该数据集适用于酒店图像分类、细粒度识别、目标检测以及跨模态检索等多种计算机视觉任务，为酒店行业的智能化应用提供了扎实的数据支撑。

背景与挑战

背景概述

在计算机视觉与旅游科技交叉领域，大规模酒店图像数据集对于推动场景理解、物体检测及个性化推荐等任务具有关键意义。Hotel-Images-200k-50k-Hotels数据集由相关研究团队构建，旨在汇集来自不同来源的酒店视觉资料，其核心研究问题聚焦于如何利用海量图像数据提升酒店识别、室内外场景分析以及多目标检测的模型性能。该数据集通过整合超过14万张图像与5万家酒店信息，为学术界与工业界提供了丰富的视觉基准资源，显著促进了细粒度图像分类与跨域视觉理解技术的发展，对智慧旅游与酒店管理领域的智能化转型产生了深远影响。

当前挑战

该数据集致力于解决酒店场景下的细粒度视觉识别与多目标检测问题，其核心挑战在于酒店图像中存在的类内差异大、类间相似性高，以及室内外场景光照、视角与装饰风格的巨大变化，这些因素使得模型难以准确区分不同酒店或识别特定物体。在构建过程中，数据采集面临酒店图像来源多样、质量参差不齐的困难，同时标注工作需处理大规模图像中物体边界框与类别的精确标注，涉及复杂的人工校验与自动化预处理流程，确保标注一致性与数据可靠性成为关键难点。

常用场景

经典使用场景

在计算机视觉领域，大规模图像数据集对于推动模型性能至关重要。hotel-images-200k-50k-hotels数据集以其涵盖超过20万张酒店图像和5万家酒店的规模，为图像分类、物体检测和场景理解任务提供了丰富的视觉素材。该数据集常被用于训练和评估深度学习模型，特别是在细粒度图像识别方面，模型能够学习区分不同酒店的内部装饰、设施布局等细微视觉特征，从而提升在复杂环境下的识别准确率。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究工作。例如，基于其预标注版本（如detr和yolo配置），研究者开发了高效的物体检测算法，优化了模型在密集物体场景下的性能。同时，该数据集也促进了跨模态学习方法的创新，如结合文本描述进行图像检索，推动了视觉-语言模型的进展，为后续大规模视觉数据集的构建和应用提供了重要参考。

数据集最近研究