airbnb-synthetic-subsampled

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/jinaai/airbnb-synthetic-subsampled

下载链接

链接失效反馈

官方服务：

资源简介：

AirBnB图表检索数据集是从Kaggle的纽约市Airbnb开放数据集构建而来的，包含了不同语言的查询、对应的图片、图片文件名以及从图片中提取的文本描述。这个数据集是从完整数据集中随机选取的，每种语言最多包含1000条记录，用于测试目的。

The AirBnB Chart Retrieval Dataset is constructed from the New York City Airbnb Open Dataset on Kaggle. It includes multilingual queries, corresponding images, image filenames, and text descriptions extracted from the images. This dataset is randomly sampled from the full dataset, with up to 1000 entries per language, and is used for testing purposes.

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

在数据可视化与信息检索领域，airbnb-synthetic-subsampled数据集源自Kaggle平台的纽约市Airbnb开放数据，通过模板化方法生成查询并渲染图表。采用随机子采样策略，每种语言配置严格限制1000个样本，确保数据代表性与均衡性。图像文本描述借助EasyOCR技术进行光学字符识别提取，构建过程注重多语言对齐与结构一致性。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定语言配置，默认划分为测试集以评估模型泛化能力。该数据集适用于跨模态检索、图像描述生成、多语言自然语言处理等实验场景。使用时应遵循原数据版权约定，仅限研究与教育用途，若涉及版权争议可联系指定渠道进行处理。

背景与挑战

背景概述

随着多模态学习在信息检索领域的深入发展，Airbnb合成子采样数据集应运而生，由Jina AI团队基于Kaggle平台的纽约市Airbnb开放数据构建。该数据集专注于图表检索任务，通过模板生成查询语句并渲染表格图像，结合多语言文本描述，旨在推动跨模态检索模型的研究与评估。其多语言特性覆盖阿拉伯语、德语、汉语等十种语言，为全球化应用提供了重要数据支撑，对提升多语言环境下的信息检索精度具有显著意义。

当前挑战

该数据集核心挑战在于解决多模态图表检索中的跨语言对齐问题，要求模型同时理解图像视觉特征与多语言文本语义。构建过程中面临多语言文本生成的语法一致性维护，以及光学字符识别技术在复杂表格结构中的提取精度问题。此外，原始数据渲染时需保持视觉信息与文本描述的高度同步，避免语义歧义，这对数据合成流程的可靠性提出了较高要求。

常用场景

经典使用场景

在跨模态信息检索研究领域，该数据集通过提供多语言查询与对应图表图像的配对样本，为图文检索模型的训练与评估提供了标准化测试平台。其经典应用场景包括训练视觉-语言模型进行端到端的图表理解与检索，尤其适合评估模型在多语言环境下的跨模态对齐能力。研究者可利用该数据集验证模型对住房数据可视化图表的语义理解精度。

解决学术问题

该数据集有效解决了跨模态检索中语言多样性带来的泛化难题，为研究多语言场景下的图文语义对齐提供了基准数据。其意义在于突破了单一语言检索模型的局限性，推动了跨语言视觉-语言联合表征学习的发展。通过提供结构化住房数据与多语言描述的对应关系，为认知计算领域提供了研究视觉语言交互机理的重要实验材料。

实际应用

在现实应用层面，该数据集支撑了智能住房数据分析系统的开发，使系统能够理解多语言用户查询并精准检索相应数据可视化图表。其技术可应用于跨国企业的数据洞察平台，帮助不同语言用户通过自然语言交互获取住房市场趋势分析。此外还为旅游科技公司提供了构建多语言房产数据可视化检索系统的训练基础。

数据集最近研究