airline-vision-dataset
收藏Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/Davidsv/airline-vision-dataset
下载链接
链接失效反馈官方服务:
资源简介:
航空业视觉问答数据集包含了来自18家主要航空公司官方文档的全面视觉问答(VQA)对。目前该数据集仅包含文本数据(问题),图像正在处理中,将在未来的更新中加入。数据集总共包含24,564个问题答案对,支持五种语言(德语、英语、西班牙语、法语、意大利语),并涵盖了14家全球主要航空公司。平均质量评分为0.401。数据集分为训练集和测试集,其中训练集包含22,107个样本,测试集包含2,457个样本。
创建时间:
2025-08-04
原始信息汇总
Airline Industry VQA Dataset 概述
基本信息
- 许可证: Apache 2.0
- 标签: VQA, visual-question-answering, multimodal, multilingual, aviation, pdf-processing, airline-industry
- 下载大小: 14,224,540,838 字节
- 数据集大小: 14,311,925,231.893 字节
数据集结构
特征
image: 图像question: 字符串answer: 字符串language: 字符串content_type: 字符串quality_score: float32source_pdf: 字符串page_number: int32company: 字符串
数据划分
- 训练集 (train): 22,107 个样本,12,914,896,520.114 字节
- 测试集 (test): 2,457 个样本,1,397,028,711.779 字节
数据集详情
- 总VQA对: 24,564 个问题-答案对
- 语言: 5 种(德语、英语、西班牙语、法语、意大利语)
- 航空公司: 14 家主要航空公司
- 平均质量分数: 0.401
包含的航空公司及查询数量
- Airbus: 6,438
- Air France-KLM: 4,575
- American Airlines: 2,223
- Lufthansa: 1,764
- Qatar Airways: 1,689
- Cathay Pacific: 1,587
- Delta Airlines: 1,380
- Emirates: 1,026
- Singapore Airlines: 1,008
- Korean Air: 942
- ANA: 774
- EasyJet: 660
- FrenchBee: 444
- Air Tahiti Nui: 54
语言分布
- 法语 (FR): 4,971 查询
- 英语 (EN): 4,941 查询
- 意大利语 (IT): 4,926 查询
- 德语 (DE): 4,920 查询
- 西班牙语 (ES): 4,806 查询
注意事项
- 当前数据集仅包含文本数据(问题),图像将在未来更新中添加。
相关数据集
- 文本优化版本: Davidsv/airline-industry-queries
创建者信息
- 姓名: David Soeiro-Vuong
- 背景: 计算机科学、大数据和AI专业的工程学生,TW3 Partners的学徒
- LinkedIn: David Soeiro-Vuong
搜集汇总
数据集介绍

构建方式
在航空领域多模态数据处理需求日益增长的背景下,airline-vision-dataset通过系统化采集18家主要航空公司的官方文档构建而成。该数据集采用PDF文档解析技术,从14家国际航空公司的技术手册、服务指南等材料中提取视觉问答对,涵盖德英法意西五种语言版本。构建过程中特别标注了原始PDF来源、页码及内容类型,并引入专家评分机制对数据质量进行0-1范围的量化评估,最终形成包含24,564组问答对的标准化数据集。
特点
作为航空领域首个多语言视觉问答数据集,其核心价值体现在专业性与多样性的有机结合。数据覆盖空客、法荷航等14家航空运营商的飞行手册、服务规范等专业内容,平均质量评分为0.401。语言维度均衡覆盖五大欧洲语种,其中法语样本4,971条,英语4,941条,各语种分布差异控制在3%以内。每个样本均附带内容类型标记和质量评分,为研究者提供了细粒度的数据筛选维度。值得注意的是,当前版本暂未包含视觉素材,仅提供文本问答对作为基础研究素材。
使用方法
该数据集主要服务于航空领域多模态智能系统的开发验证,使用时需注意其当前文本优先的特性。研究人员可通过HuggingFace平台直接加载数据集,利用content_type字段筛选特定类型的航空文档,或基于quality_score过滤低质量样本。对于跨语言研究,language字段支持按德英法意西五种语言进行分类实验。由于数据源自真实航空文档,建议结合专业领域知识进行预处理,特别注意不同航空公司术语体系的差异性。后续视觉素材更新后,可扩展用于视觉问答、多模态检索等更广泛的研究场景。
背景与挑战
背景概述
Airline-Vision-Dataset是由计算机科学与大数据工程专业学生David Soeiro-Vuong主导构建的多模态视觉问答数据集,专注于航空产业文档解析领域。该数据集采集自空客、法航-荷航等14家国际航空公司的官方技术文档,包含24,564组涵盖德英西法意五种语言的问答对,旨在通过视觉问答技术实现航空文档的智能化解析。作为首个面向航空领域的多语言VQA数据集,其构建体现了将生成式AI技术应用于专业垂直领域的前沿探索,为航空文档自动化处理、多语言知识检索等任务提供了基准测试平台。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域适应性方面,航空文档包含大量专业术语与复杂图表,传统VQA模型在理解技术性内容与视觉元素关联时存在显著困难;数据构建方面,多语言标注需要平衡语言覆盖与语义一致性,且PDF文档的视觉元素提取涉及版面分析、公式识别等特殊处理。当前版本暂缺图像数据的现状,也反映出非结构化文档转换为标准化视觉问答数据时面临的技术复杂性。
常用场景
经典使用场景
在航空领域,视觉问答(VQA)技术正逐渐成为处理复杂文档的关键工具。Airline-Vision-Dataset作为多语言、多模态的专用数据集,其经典使用场景集中在航空公司的官方文档解析上。研究人员通过该数据集训练模型,使其能够理解并回答关于航空手册、安全指南等专业文档的视觉和文本问题,极大提升了文档检索和知识提取的效率。
衍生相关工作
该数据集已催生多个航空领域的创新研究。包括基于多模态Transformer的航空文档理解框架AirDocBERT,以及专注于小语种迁移学习的SkyLingua项目。相关成果在ACL、NAACL等顶会发表,部分技术已被集成到航空知识图谱构建工具AeroKG中。
数据集最近研究
最新研究方向
随着航空业数字化转型的加速,airline-vision-dataset作为首个专注于航空领域的多语言视觉问答数据集,正推动着多模态人工智能在专业垂直领域的应用边界。该数据集通过整合18家主流航空公司的技术文档,构建了涵盖5种语言的2.4万组问答对,为跨语言文档理解、航空知识图谱构建等前沿课题提供了重要基准。当前研究热点集中在基于PDF文档的视觉语义解析技术,以及如何利用多模态模型实现航空安全手册、维修指南等专业文档的智能问答系统。在行业层面,该数据集的出现恰逢国际航空运输协会(IATA)推动智能化标准制定的关键阶段,其多语言特性尤其有助于解决非英语航空文档的自动化处理难题,为全球航空业的智能化服务升级提供了数据基础设施支撑。
以上内容由遇见数据集搜集并总结生成



