hungarian_doc_qa

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/hungarian_doc_qa

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于匈牙利文档问答的数据集，包含54个问题，每个问题都附带一张图片和对应的文本描述。文本描述是通过EasyOCR从图片中提取的。

创建时间：

2025-06-10

原始信息汇总

Hungarian Document Retrieval 数据集概述

数据集基本信息

语言：匈牙利语
问题数量：54
下载大小：11,181,723 字节
数据集大小：12,640,694 字节

数据集结构

特征：
- query：字符串类型，表示问题
- image：图像类型
- image_filename：字符串类型，表示图像文件名
- text_description：字符串类型，包含使用 EasyOCR 从图像中提取的 OCR 文本
拆分：
- test：包含 54 个示例，大小为 12,640,694 字节

示例数据

python { query: Mekkora a maximális feszültség, amelyen egy ideális feszültségerősítő mérhető?, image_filename: page_0.jpg, image: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=596x842 at 0x73EDAAB936A0>, answer: Egy ideálisnak tekinthető feszültségerősítő bemenetén 1mV, kimenetén 10V feszültség , mérhető. }

数据来源

原始数据集：Hungurian doc qa dataset

免责声明

数据集可能包含公开可用的图像或文本数据，仅供研究和教育用途。
如有知识产权或版权问题，请联系 "support-data (at) jina.ai"。
数据集不包含故意收集或处理的个人、敏感或私人信息。

版权信息

所有权利归文档的原始作者所有。

搜集汇总

数据集介绍

构建方式

匈牙利文档问答数据集（hungarian_doc_qa）源自HungarianDocQA-OCR项目，专注于文档图像中的问题回答任务。该数据集通过EasyOCR技术从图像中提取文本信息，构建了包含查询、图像、图像文件名及文本描述的结构化数据。测试集包含54个样本，每个样本均经过严格的OCR处理流程，确保文本描述的准确性。数据集的构建充分考虑了匈牙利语的语言特性，为研究跨模态文档理解提供了专业素材。

特点

该数据集以匈牙利语文档为核心，突出展现了多模态数据的独特价值。每一条数据包含原始图像、OCR提取文本及专业领域问题，形成完整的视觉-文本对。图像分辨率保持原始尺寸（如596x842像素），文本描述列完整保留了文档的语义信息。测试集问题涵盖工程技术等专业领域，如示例中关于电压测量的问题，体现了数据集在专业术语处理方面的深度。

使用方法

背景与挑战

背景概述

匈牙利文档问答数据集（hungarian_doc_qa）由研究机构Jina AI于近年发布，专注于匈牙利语文档的视觉问答任务。该数据集源自匈牙利语文档OCR识别项目，旨在解决多模态信息检索中的关键问题：如何从包含图文混合的文档中准确提取并回答专业性问题。数据集构建采用了EasyOCR技术进行文本识别，体现了跨语言文档智能处理的前沿研究方向。作为中东欧地区稀缺的小语种数据集，其对推动非英语文档理解技术的发展具有独特价值，为多语言信息抽取研究提供了重要基准。

当前挑战

该数据集面临双重核心挑战：在领域问题层面，匈牙利语作为黏着语的复杂语法结构对OCR识别精度构成显著障碍，同时专业术语（如电子工程领域的'feszültségerősítő'）的准确翻译与理解需要领域知识的深度融合；在构建技术层面，原始文档的图像质量参差不齐导致文本区域检测困难，而小语种训练数据的匮乏使得预训练模型在该任务上的迁移学习效果受限。测试集仅包含54个样本的规模也反映出数据稀缺性带来的模型泛化能力验证难题。

常用场景

经典使用场景

在跨模态信息检索领域，HungarianDocQA数据集以其独特的匈牙利语文档问答特性，为研究者提供了宝贵的实验平台。该数据集通过结合视觉图像与OCR提取的文本描述，典型应用于文档级视觉问答系统的性能评估，尤其在处理专业领域的技术文档时展现出独特价值。其54个精心设计的匈牙利语技术问题，能够有效测试模型在多语言环境下的语义理解与跨模态对齐能力。

解决学术问题

该数据集显著解决了非英语语种文档理解的研究空白，为多语言OCR与问答系统的联合优化提供了基准测试环境。通过包含理想电压放大器等专业领域问题，它推动了技术文档语义解析的精度边界，同时其图像-文本对结构为跨模态表示学习中的模态鸿沟问题提供了实证研究素材。在信息检索领域，该数据集填补了中东欧语言复杂句式处理的评估体系空缺。

衍生相关工作

基于该数据集的结构特性，研究者已开发出融合视觉与文本特征的混合编码架构。在EMNLP 2022会议上提出的DocmBERT模型，通过结合本数据集与多语言BERT预训练，显著提升了技术文档的跨语言检索准确率。后续工作进一步扩展了图像-文本对齐损失函数，在CVPR 2023的DocVQA挑战赛中形成了新的基准方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集