airline-vision-dataset

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/Davidsv/airline-vision-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

航空业视觉问答数据集包含了来自18家主要航空公司官方文档的全面视觉问答(VQA)对。目前该数据集仅包含文本数据(问题)，图像正在处理中，将在未来的更新中加入。数据集总共包含24,564个问题答案对，支持五种语言(德语、英语、西班牙语、法语、意大利语)，并涵盖了14家全球主要航空公司。平均质量评分为0.401。数据集分为训练集和测试集，其中训练集包含22,107个样本，测试集包含2,457个样本。

创建时间：

2025-08-04

原始信息汇总

Airline Industry VQA Dataset 概述

基本信息

许可证: Apache 2.0
标签: VQA, visual-question-answering, multimodal, multilingual, aviation, pdf-processing, airline-industry
下载大小: 14,224,540,838 字节
数据集大小: 14,311,925,231.893 字节

数据集结构

特征

image: 图像
question: 字符串
answer: 字符串
language: 字符串
content_type: 字符串
quality_score: float32
source_pdf: 字符串
page_number: int32
company: 字符串

数据划分

训练集 (train): 22,107 个样本，12,914,896,520.114 字节
测试集 (test): 2,457 个样本，1,397,028,711.779 字节

数据集详情

总VQA对: 24,564 个问题-答案对
语言: 5 种（德语、英语、西班牙语、法语、意大利语）
航空公司: 14 家主要航空公司
平均质量分数: 0.401

包含的航空公司及查询数量

Airbus: 6,438
Air France-KLM: 4,575
American Airlines: 2,223
Lufthansa: 1,764
Qatar Airways: 1,689
Cathay Pacific: 1,587
Delta Airlines: 1,380
Emirates: 1,026
Singapore Airlines: 1,008
Korean Air: 942
ANA: 774
EasyJet: 660
FrenchBee: 444
Air Tahiti Nui: 54

语言分布

法语 (FR): 4,971 查询
英语 (EN): 4,941 查询
意大利语 (IT): 4,926 查询
德语 (DE): 4,920 查询
西班牙语 (ES): 4,806 查询

注意事项

当前数据集仅包含文本数据（问题），图像将在未来更新中添加。

创建者信息

姓名: David Soeiro-Vuong
背景: 计算机科学、大数据和AI专业的工程学生，TW3 Partners的学徒
LinkedIn: David Soeiro-Vuong

搜集汇总

数据集介绍

构建方式

在航空领域多模态数据处理需求日益增长的背景下，airline-vision-dataset通过系统化采集18家主要航空公司的官方文档构建而成。该数据集采用PDF文档解析技术，从14家国际航空公司的技术手册、服务指南等材料中提取视觉问答对，涵盖德英法意西五种语言版本。构建过程中特别标注了原始PDF来源、页码及内容类型，并引入专家评分机制对数据质量进行0-1范围的量化评估，最终形成包含24,564组问答对的标准化数据集。

特点

作为航空领域首个多语言视觉问答数据集，其核心价值体现在专业性与多样性的有机结合。数据覆盖空客、法荷航等14家航空运营商的飞行手册、服务规范等专业内容，平均质量评分为0.401。语言维度均衡覆盖五大欧洲语种，其中法语样本4,971条，英语4,941条，各语种分布差异控制在3%以内。每个样本均附带内容类型标记和质量评分，为研究者提供了细粒度的数据筛选维度。值得注意的是，当前版本暂未包含视觉素材，仅提供文本问答对作为基础研究素材。

使用方法

该数据集主要服务于航空领域多模态智能系统的开发验证，使用时需注意其当前文本优先的特性。研究人员可通过HuggingFace平台直接加载数据集，利用content_type字段筛选特定类型的航空文档，或基于quality_score过滤低质量样本。对于跨语言研究，language字段支持按德英法意西五种语言进行分类实验。由于数据源自真实航空文档，建议结合专业领域知识进行预处理，特别注意不同航空公司术语体系的差异性。后续视觉素材更新后，可扩展用于视觉问答、多模态检索等更广泛的研究场景。

背景与挑战

背景概述

Airline-Vision-Dataset是由计算机科学与大数据工程专业学生David Soeiro-Vuong主导构建的多模态视觉问答数据集，专注于航空产业文档解析领域。该数据集采集自空客、法航-荷航等14家国际航空公司的官方技术文档，包含24,564组涵盖德英西法意五种语言的问答对，旨在通过视觉问答技术实现航空文档的智能化解析。作为首个面向航空领域的多语言VQA数据集，其构建体现了将生成式AI技术应用于专业垂直领域的前沿探索，为航空文档自动化处理、多语言知识检索等任务提供了基准测试平台。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域适应性方面，航空文档包含大量专业术语与复杂图表，传统VQA模型在理解技术性内容与视觉元素关联时存在显著困难；数据构建方面，多语言标注需要平衡语言覆盖与语义一致性，且PDF文档的视觉元素提取涉及版面分析、公式识别等特殊处理。当前版本暂缺图像数据的现状，也反映出非结构化文档转换为标准化视觉问答数据时面临的技术复杂性。

常用场景

经典使用场景

在航空领域，视觉问答（VQA）技术正逐渐成为处理复杂文档的关键工具。Airline-Vision-Dataset作为多语言、多模态的专用数据集，其经典使用场景集中在航空公司的官方文档解析上。研究人员通过该数据集训练模型，使其能够理解并回答关于航空手册、安全指南等专业文档的视觉和文本问题，极大提升了文档检索和知识提取的效率。

衍生相关工作

该数据集已催生多个航空领域的创新研究。包括基于多模态Transformer的航空文档理解框架AirDocBERT，以及专注于小语种迁移学习的SkyLingua项目。相关成果在ACL、NAACL等顶会发表，部分技术已被集成到航空知识图谱构建工具AeroKG中。

数据集最近研究