MERIT Dataset

Name: MERIT Dataset
Creator: 西班牙马德里康普顿斯大学ICAII工程学院技术研究所
Published: 2024-08-31 20:56:38
License: 暂无描述

arXiv2024-08-31 更新2024-09-06 收录

下载链接：

https://huggingface.co/datasets/de-Rodrigo/merit

下载链接

链接失效反馈

官方服务：

资源简介：

MERIT数据集是由西班牙马德里康普顿斯大学ICAII工程学院技术研究所创建的多模态数据集，专注于学校报告的文本、图像和布局。该数据集包含33,000个样本，适用于视觉丰富的文档理解（VrDU）任务。数据集通过合成生成方法创建，旨在解决数据稀缺和隐私政策问题，同时评估语言模型中的偏见。其应用领域包括视觉语言模型的预训练、语言模型泛化能力的基准测试以及偏见的检测与缓解。

The MERIT dataset is a multimodal dataset developed by the Technical Institute of the ICAII School of Engineering, Complutense University of Madrid, Spain, focusing on text, images and layouts of school reports. It comprises 33,000 samples and is tailored for Visual Rich Document Understanding (VrDU) tasks. Constructed through synthetic generation approaches, this dataset is designed to address data scarcity and privacy policy issues, while evaluating biases in language models. Its application fields include pre-training of vision-language models, benchmarking the generalization capabilities of language models, as well as detection and mitigation of biases.

提供机构：

西班牙马德里康普顿斯大学ICAII工程学院技术研究所

创建时间：

2024-08-31

搜集汇总

数据集介绍

构建方式

MERIT数据集的构建方式是通过一个自动化的合成数据生成管道，该管道能够生成具有丰富视觉、文本和布局特征的学校报告样本。该管道分为两个主要阶段：数字文档样本生成和物理文档样本生成。在数字文档样本生成阶段，用户可以定义数据集的功能方面，包括选择学校、每个学校的学生数量以及每个模板中的科目数量。用户还可以在样本中嵌入偏见，例如性别比例或与姓名相关的文化起源。此外，用户还可以设置参数来调整学生的成绩，以研究LLM模型中的偏见。在物理文档样本生成阶段，使用Blender软件将数字文档样本转换为具有逼真扫描场景的样本，包括不完美的框架和纸张瑕疵。Blender模块还通过添加光照、背景、相机设置和纸张纹理等条件来增强场景的逼真度。此外，该模块还通过模拟阴影来提高样本的逼真度，从而更准确地模拟人类行为。

特点

MERIT数据集的特点包括：多模态性：该数据集包含图像、文本和布局模态，涵盖了学校报告的各个方面。逼真性：数据集中的样本具有逼真的视觉特征，包括数字文档和具有逼真扫描场景的物理文档。详细的标签：该数据集提供了详细和精确的标签，涵盖了学校报告中的各种文本、布局和视觉元素。挑战性：该数据集包含了大量的标签类别和多样化的模板，具有不同的布局、文本和视觉特征，为模型提供了更具挑战性的基准。

使用方法

MERIT数据集的使用方法包括：预训练视觉语言模型：该数据集可以用于预训练视觉语言模型，以提高其在视觉丰富文档理解任务中的性能。评估LLM模型的泛化能力：该数据集可以用于评估LLM模型的泛化能力，以了解模型在不同场景下的表现。检测和缓解LLM模型中的偏见：该数据集可以用于检测和缓解LLM模型中的偏见，以改善模型在敏感领域的性能。此外，该数据集的生成管道还可以用于创建具有特定需求和特征的样本，以支持各种研究和应用。

背景与挑战

背景概述

在人工智能领域，数据集的构建对于训练和评估模型至关重要。MERIT数据集是一个多模态（文本+图像+布局）的完全标记数据集，用于学校报告的背景下。该数据集由超过400个标签和33k个样本组成，对于训练模型在Visually-rich Document Understanding (VrDU)任务中具有重要意义。该数据集由Institute for Research in Technology, ICAI School of Engineering, Comillas Pontifical University的研究人员创建，旨在解决数据稀缺、数据隐私政策、VrDU数据集稀疏和缺乏灵活数据集的问题。MERIT数据集的创建时间是在2024年，主要研究人员包括Ignacio de Rodrigoa, Alberto Sanchez-Cuadradoa, Jaime Boala, Alvaro J. Lopez-Lopeza。该数据集的核心研究问题是如何在Visually-rich Document Understanding (VrDU)任务中提高模型性能，以及如何评估多模态语言模型(LLMs)的泛化能力。MERIT数据集的发布对相关领域产生了重要影响，为模型训练和评估提供了宝贵的资源。

当前挑战

MERIT数据集面临的挑战主要包括：1)所解决的领域问题：Visually-rich Document Understanding (VrDU)任务的挑战，包括如何准确理解文档中的文本、图像和布局信息，并将其有效地应用于实际场景中。2)构建过程中所遇到的挑战：如何生成高质量的多模态数据集，包括文本、图像和布局信息的准确标注，以及如何控制数据集中的偏差，以便更好地评估模型的泛化能力和伦理性能。此外，MERIT数据集的构建过程中还需要考虑数据隐私政策，确保数据的安全性和合规性。

常用场景

经典使用场景

在视觉丰富的文档理解（VrDU）任务中，MERIT数据集被广泛用于训练模型。该数据集包含了超过400个标签和33k个样本，涵盖了文本、图像和布局等多种模态，为VrDU任务提供了丰富的训练资源。此外，由于数据集的生成过程中包含了可控的偏见，因此也可以用于评估语言模型（LLMs）的偏见。

衍生相关工作

MERIT数据集的发布促进了VrDU和LLMs偏见研究的发展。基于MERIT数据集，研究人员可以设计更复杂的VrDU任务，评估LLMs在现实世界中的性能。同时，MERIT数据集也为LLMs偏见研究提供了大量可控的偏见数据，有助于开发更公平、更可靠的AI系统。

数据集最近研究