locany-dataset

Hugging Face2026-01-26 更新2026-01-27 收录

下载链接：

https://huggingface.co/datasets/yk3701208/locany-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Locany多模态数据集是一个大规模的多模态数据集，专为视觉语言任务设计，包括目标检测、基础定位、OCR和用户界面理解等。数据集包含9,860,204张独特图像和28,768,853条标注，总大小为2867.81 GB，涵盖6个主要类别：检测、基础定位、布局、OCR、指向和用户界面。图像以Parquet格式存储，包含原始图像字节和路径信息；标注以JSONL格式存储，包含图像路径和对话信息。数据集采用基于哈希的去重方法，确保每张图像仅存储一次。适用于多模态学习、视觉问答、目标检测等任务。数据集遵循CC-BY-4.0许可协议。

创建时间：

2026-01-24

原始信息汇总

Locany Multimodal Dataset 概述

数据集基本信息

数据集名称：Locany Multimodal Dataset
发布者：Your Name
发布年份：2026
发布平台：Hugging Face
数据集地址：https://huggingface.co/datasets/yk3701208/locany-dataset
许可协议：CC-BY-4.0
任务类别：图像到文本、目标检测、视觉问答
规模类别：1M<n<10M
支持语言：英语、中文
标签：多模态、视觉、定位、检测、OCR

数据集描述

这是一个用于视觉语言任务的大规模多模态数据集，涵盖目标检测、定位、OCR和用户界面理解。

数据集统计

唯一图像总数：9,860,204
标注总数：28,768,853
总大小：2867.81 GB
类别数量：6

按类别细分

类别	数据集数量	标注数量
检测	32	16,334,270
定位	8	2,110,597
布局	15	1,141,706
OCR	13	2,060,741
指向	3	876,872
UI	16	6,244,667

数据集结构

locany-dataset/ ├── images_hf/ # 按类别/子文件夹组织的Parquet文件 │ ├── Detection/ │ │ ├── COCO/ │ │ ├── Object365/ │ │ └── ... │ ├── Grounding/ │ ├── OCR/ │ ├── UI/ │ └── ... └── annotations_hf/ # 按类别划分的JSONL标注文件 ├── Detection/ ├── Grounding/ ├── OCR/ └── ...

Parquet文件（图像）

图像以Parquet格式存储，包含两列：

image：原始图像字节（PNG格式）
image_path：路径字符串（例如：images_hf/Detection/COCO/000000178538.jpg）每个Parquet文件大小约为5GB。

标注文件（JSONL）

JSONL文件中的每一行包含： json { "image": "images_hf/Detection/COCO/000000178538.jpg", "conversations": [ {"from": "human", "value": "<image> Detect all objects..."}, {"from": "gpt", "value": "<ref>person</ref><box>x1 y1 x2 y2</box>..."} ] }

坐标格式

边界框使用归一化坐标，范围在[0, 1000]：

矩形：<box>x1 y1 x2 y2</box>
点：<box>x y</box> 转换为绝对坐标的公式：

absolute_x = normalized_x * image_width / 1000 absolute_y = normalized_y * image_height / 1000

类别说明

检测：带有识别物体类别边界框的目标检测数据集。
定位：将自然语言描述连接到图像区域的短语定位数据集。
OCR：图像中的文本检测和识别。
UI：用户界面理解，包括桌面、移动设备和网页截图。
布局：用于表单、表格和结构化文档的文档布局分析。
指向：基于点的定位任务。

去重处理

该数据集在所有类别中使用基于哈希的去重。每个唯一的图像（按内容）仅存储一次，即使在多个数据集或类别中使用也是如此。与简单的重复存储相比，这减少了大约30-50%的存储空间。

数据来源致谢

该数据集汇总并处理了来自多个公共来源的数据，包括COCO、Object365、OpenImages等。请参阅各个数据集的许可协议以了解具体限制。

搜集汇总

数据集介绍

构建方式

在视觉语言多模态研究领域，数据集的构建方式直接影响模型性能的边界。Locany多模态数据集采用系统化整合策略，从32个检测数据集、8个定位数据集、13个OCR数据集等公开资源中，通过哈希去重技术实现跨类别图像唯一性存储，避免了约30-50%的冗余数据。图像以Parquet格式分目录存储，每个文件约5GB，包含原始图像字节与路径映射；标注数据采用JSONL格式组织，每条记录包含图像路径和结构化对话标注，形成了包含986万张独立图像、2876万条标注的完整体系。

特点

该数据集的核心特征体现在其多任务覆盖与结构化设计上。涵盖检测、定位、OCR、界面理解等六大视觉语言任务，每个类别均包含多个权威子数据集，如检测类别整合了COCO、Object365等32个来源。技术层面采用归一化坐标系统，将边界框坐标统一映射至[0,1000]区间，便于跨分辨率图像处理；标注格式创新性地采用对话式结构，将人类指令与模型响应嵌套在conversations字段中，支持端到端的视觉语言交互训练。这种设计使数据集既能支持传统检测任务，又能适应生成式视觉语言模型的需求。

使用方法

使用该数据集时，需遵循其分层的文件组织逻辑。图像数据通过PyArrow读取Parquet文件建立路径-字节映射字典，标注数据则按行解析JSONL文件获取对话序列。典型训练流程首先加载指定类别的Parquet图像库，再同步读取对应标注文件，通过图像路径键值匹配实现数据对齐。处理边界框时需将归一化坐标转换为绝对坐标，转换公式为绝对坐标=归一化值×图像维度/1000。这种分离存储与关联查询的设计，既保证了数据加载效率，又为分布式训练提供了灵活的数据切片可能性。

背景与挑战

背景概述

随着多模态人工智能的快速发展，视觉与语言任务的融合研究日益成为学术与工业界关注的焦点。在此背景下，Locany多模态数据集于2026年由研究人员在Hugging Face平台发布，旨在为对象检测、视觉定位、光学字符识别及用户界面理解等任务提供大规模、高质量的数据支持。该数据集整合了包括COCO、Object365在内的多个公开数据源，通过哈希去重技术实现了约30%至50%的存储优化，其规模涵盖近千万张独特图像与超过2800万条标注，显著推动了多模态模型在细粒度视觉理解与跨模态对齐方面的研究进展。

当前挑战

该数据集致力于解决多模态任务中的核心挑战，即如何实现视觉内容与自然语言描述之间的精准对齐与联合推理。具体而言，在领域问题层面，模型需克服复杂场景下对象检测的尺度变化与遮挡问题，同时应对视觉定位中语言描述的歧义性与多样性，以及用户界面理解中的结构解析与功能推断等难题。在构建过程中，挑战主要源于多源数据的异构性整合，包括标注格式的统一、坐标系统的标准化，以及大规模图像存储与高效检索的技术实现，这些因素共同构成了数据集构建与应用的复杂性。

常用场景

经典使用场景

在视觉语言多模态研究领域，Locany多模态数据集为对象检测、视觉定位、光学字符识别及用户界面理解等任务提供了大规模、多样化的训练与评估资源。其经典使用场景集中于训练端到端的视觉语言模型，例如通过图像与文本对话的配对数据，模型能够学习将自然语言描述与图像中的特定区域进行关联，实现细粒度的视觉理解与生成。该数据集整合了检测、布局、OCR等多个子类别的标注，支持模型在统一框架下处理跨任务的视觉推理，为多模态大模型的预训练与微调奠定了数据基础。

衍生相关工作

基于Locany数据集，研究者们衍生了一系列经典工作，主要集中在多模态大模型的架构优化与任务扩展。例如，借鉴其对话式标注格式，开发了能够同时处理检测、定位与问答的统一模型；同时，数据集的去重与多类别整合启发了跨数据集预训练策略的研究，提升了模型在稀缺任务上的性能。这些工作不仅推动了视觉语言模型的规模化发展，也为后续数据集的构建提供了标准化范本。

数据集最近研究