cooleel/xfund_de

Name: cooleel/xfund_de
Creator: cooleel
Published: 2022-12-02 03:12:40
License: 暂无描述

Hugging Face2022-12-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cooleel/xfund_de

下载链接

链接失效反馈

官方服务：

资源简介：

xfund数据集是一个包含单词级别注释的数据集。原始XFUND数据集是一个多语言视觉丰富表单理解的基准测试数据集，包含7种语言（中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语）的表单理解样本。该数据集旨在促进多语言文档理解的研究，并展示了跨模态联合学习的潜力。

The XFUND dataset is a benchmark dataset with word-level annotations. The original XFUND is a benchmark for multilingual visually-rich form understanding, encompassing form understanding samples across seven languages: Chinese, Japanese, Spanish, French, Italian, German, and Portuguese. This dataset aims to advance research on multilingual document understanding and demonstrates the potential of cross-modal joint learning.

提供机构：

cooleel

原始信息汇总

数据集概述

数据集名称

XFUND

数据集描述

XFUND是一个多语言视觉丰富表单理解基准数据集，包含7种语言（中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文）的表单理解样本。

数据集用途

用于多语言视觉丰富文档理解任务，特别是表单理解。

许可证

MIT

引用信息

latex @inproceedings{xu-etal-2022-xfund, title = "{XFUND}: A Benchmark Dataset for Multilingual Visually Rich Form Understanding", author = "Xu, Yiheng and Lv, Tengchao and Cui, Lei and Wang, Guoxin and Lu, Yijuan and Florencio, Dinei and Zhang, Cha and Wei, Furu", booktitle = "Findings of the Association for Computational Linguistics: ACL 2022", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-acl.253", doi = "10.18653/v1/2022.findings-acl.253", pages = "3214--3224", abstract = "Multimodal pre-training with text, layout, and image has achieved SOTA performance for visually rich document understanding tasks recently, which demonstrates the great potential for joint learning across different modalities. However, the existed research work has focused only on the English domain while neglecting the importance of multilingual generalization. In this paper, we introduce a human-annotated multilingual form understanding benchmark dataset named XFUND, which includes form understanding samples in 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese). Meanwhile, we present LayoutXLM, a multimodal pre-trained model for multilingual document understanding, which aims to bridge the language barriers for visually rich document understanding. Experimental results show that the LayoutXLM model has significantly outperformed the existing SOTA cross-lingual pre-trained models on the XFUND dataset. The XFUND dataset and the pre-trained LayoutXLM model have been publicly available at https://aka.ms/layoutxlm.", }

搜集汇总

数据集介绍

构建方式

在视觉丰富的文档理解领域，多语言表单数据的稀缺一直是制约模型泛化能力的瓶颈。为应对这一挑战，XFUND数据集以多语言表单理解为核心，由专家精心标注了词级别的注解信息。该数据集覆盖了包括中文、日语、西班牙语、法语、意大利语、德语和葡萄牙语在内的七种语言，共计包含大量真实表单样本。每个样本均保留了文本、布局与图像的多模态信息，并通过人工标注确保词级边界与语义标签的准确性，从而为多语言场景下的视觉丰富文档理解提供了标准化基准。

特点

cooleel/xfund_de作为XFUND数据集的德语子集，继承了其多模态与多语言的核心特质。其显著特点在于词级粒度的精细标注，使得模型能够精准学习文本与空间布局的关联。数据涵盖真实表单场景，兼具领域多样性与语言特异性，为评估跨语言文档理解模型的泛化能力提供了独特视角。此外，该子集与XFUND其他语言子集保持一致的标注体系，便于开展跨语言对比实验与迁移学习研究。

使用方法

该数据集可通过HuggingFace平台直接加载使用，支持与LayoutXLM等多模态预训练模型的无缝集成。研究者可基于词级标注进行表单实体抽取、键值对匹配等下游任务微调。使用时需注意将图像、文本与布局信息对齐输入，推荐采用官方提供的预处理流水线。数据集采用MIT许可证，允许学术与商业场景下的自由使用，但建议引用原始XFUND论文以尊重学术贡献。

背景与挑战

背景概述

在自然语言处理与文档智能的交汇领域，多语言视觉丰富文档理解任务长期面临数据集匮乏的瓶颈。为应对这一挑战，微软研究院与学术界合作，于2022年由Yiheng Xu、Tengchao Lv等研究者共同发布了XFUND基准数据集。该数据集聚焦于多语言表单理解，涵盖中文、日文、西班牙文、法文、意大利文、德文和葡萄牙文七种语言，旨在推动跨语言文档理解模型的泛化能力。通过提供词级标注的丰富语义信息，XFUND不仅为多模态预训练模型如LayoutXLM提供了评估基准，更填补了非英语环境下文档智能研究的空白，成为该领域里程碑式的资源。

当前挑战

当前XFUND数据集面临的核心挑战体现在两方面。其一，多语言表单理解任务本身具有高度复杂性：不同语言的版面布局差异显著，文字方向、表格结构及语义对齐方式各异，且非英语语料中标注资源稀缺，导致模型在跨语言场景下难以同时兼顾视觉特征与文本语义的联合建模。其二，数据集构建过程中需应对高昂的人工标注成本与质量一致性难题——七种语言的表单需逐词标注，需确保标注粒度统一且跨语言间语义等价，同时避免因文化差异引发的歧义。此外，现有模型在低资源语言（如葡萄牙语）上的表现仍显著弱于高资源语言，暴露出数据分布不均衡与跨语言迁移能力的不足。

常用场景

经典使用场景

在视觉富文档理解领域，cooleel/xfund_de作为XFUND数据集的多语言子集之一，专为德语场景下的表单理解任务而设计。该数据集以词级别标注为核心，融合了文本、布局与图像等多模态信息，为研究者提供了高精度的训练与评估基准。其经典使用场景聚焦于多语言视觉富文档的语义解析，例如从德语表单中自动提取关键字段（如姓名、日期、金额），并验证模型在跨语言迁移学习中的泛化能力。通过统一标注格式，该数据集支持对布局感知预训练模型（如LayoutXLM）的微调与评测，成为多模态文档理解研究中的标杆性资源。

衍生相关工作

cooleel/xfund_de衍生了一系列经典工作，最突出的是LayoutXLM模型及其后续变体。LayoutXLM首次在XFUND上验证了多语言多模态预训练的有效性，开创了跨语言文档理解的范式。后续研究如LiLT（Language-independent Layout Transformer）进一步探索了布局与文本的独立编码策略，通过XFUND的多语言数据验证了其语言无关性。此外，基于该数据集的微调模型被广泛用于文档视觉问答（DocVQA）与关键信息抽取（KIE）任务，例如在FUNSD基准上迁移德语布局知识。这些工作共同推动了多语言文档AI从单一语言处理向全球化通用智能的演进，成为连接学术研究与产业应用的桥梁。

数据集最近研究