MMTAD

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/Tex-TAR/MMTAD

下载链接

链接失效反馈

官方服务：

资源简介：

MMTAD数据集是一个包含1623个真实世界文档图像的多语言多领域文本属性数据集，这些图像在不同的光照、布局和噪声条件下捕获。数据集提供了1117716个单词级别的注释，分为两组属性：T1（粗体、斜体、粗斜体）和T2（下划线、删除线、下划线和删除线）。数据集覆盖了英语、西班牙语和六种南亚语言，平均每张图像注释300至500个单词。为解决类别不平衡问题，数据集应用了上下文感知增强技术，如剪切变换以生成额外的斜体，以及添加逼真的噪声下划线和删除线覆盖。

创建时间：

2025-07-22

原始信息汇总

MMTAD数据集概述

数据集基本信息

名称: MMTAD (Multilingual Multi-domain Textual Attribute Dataset)
开发者: TexTAR团队
发布日期: 2025年
数据集大小: 231043093.0字节
下载大小: 191751258字节
测试集样本数: 481个

数据特征

特征字段:
- image: 图像数据（未解码）
- annotation_json: 字符串格式的标注信息

数据集内容

总样本量: 1,623张真实世界文档图像
标注数量: 1,117,716个单词级标注
平均标注密度: 每张图像300-500个标注单词

标注属性

T1组属性:
- Bold（粗体）
- Italic（斜体）
- Bold & Italic（粗斜体）
T2组属性:
- Underline（下划线）
- Strikeout（删除线）
- Underline & Strikeout（下划删除线）

语言与领域覆盖

语言:
- 英语、西班牙语
- 6种南亚语言（印地语67.4%，泰卢固语8.2%，马拉地语8.0%，旁遮普语5.9%，孟加拉语5.4%，古吉拉特语/泰米尔语等5.2%）
文档类型:
- 立法记录
- 通知
- 教科书
- 公证文件

数据增强

斜体增强: 剪切变换生成额外斜体样本
噪声增强: 真实噪声的下划线和删除线叠加

文件结构

textar-testset: 文档图像集合
testset_labels.json: 图像文件名与属性标注的映射文件

引用格式

bibtex @article{Kumar2025TexTAR, title = {TexTAR: Textual Attribute Recognition in Multi-domain and Multi-lingual Document Images}, author = {Rohan Kumar and Jyothi Swaroopa Jinka and Ravi Kiran Sarvadevabhatla}, booktitle = {International Conference on Document Analysis and Recognition, {ICDAR}}, year = {2025} }

获取方式

python from datasets import load_dataset ds = load_dataset("Tex-TAR/MMTAD")

附加资源

项目网站: https://tex-tar.github.io/

搜集汇总

数据集介绍

构建方式

MMTAD数据集构建基于真实世界多语言文档图像，涵盖立法记录、公告、教材及公证文件等多种领域。数据采集过程中充分考虑了光照、布局及噪声条件的多样性，共包含1,623张文档图像，标注了1,117,716个单词级别的文本属性。为应对类别不平衡问题，研究团队采用上下文感知增强技术，如剪切变换生成斜体样本，以及模拟真实噪声的下划线和删除线叠加，确保数据集的丰富性和平衡性。

使用方法

使用MMTAD数据集时，可通过HuggingFace的`load_dataset`函数直接加载，数据集包含文档图像和对应的JSON格式标注文件。标注文件以图像文件名作为键，值为每个单词的文本属性标签。为方便在HuggingFace Data Studio中查看，原始JSON标注文件被转换为行分隔的JSONL格式，包含图像路径和层级化的标注信息。用户可通过访问TexTAR项目网站获取详细文档和资源，进一步探索数据集的应用场景和技术细节。

背景与挑战

背景概述

MMTAD（Multilingual Multi-domain Textual Attribute Dataset）是由Rohan Kumar等研究人员于2025年提出的多语言多领域文本属性识别数据集，旨在解决复杂文档图像中文本属性识别的核心问题。该数据集包含1,623张真实场景下的文档图像，涵盖立法记录、通知、教科书及公证文件等多种类型，覆盖英语、西班牙语及六种南亚语言。通过提供1,117,716个词级标注，MMTAD为研究者在多语言环境下识别粗体、斜体、下划线及删除线等文本属性提供了重要基准。其多样化的语言和领域分布，以及针对类别不平衡设计的上下文感知增强方法，显著推动了文档分析与识别领域的发展。

当前挑战

MMTAD数据集面临的挑战主要体现在两方面：领域问题方面，多语言和多领域文档的复杂性导致文本属性识别难度增加，尤其是不同语言中文本属性的表现形式差异较大，如南亚语言中的特殊字体和排版规则。此外，类别不平衡问题（如斜体和删除线样本较少）对模型训练提出了更高要求。构建过程方面，数据采集需覆盖多样化的光照、布局和噪声条件，确保标注的准确性和一致性具有较高难度。为应对这些挑战，研究团队采用了上下文感知增强技术，如剪切变换生成斜体样本及模拟真实噪声的下划线和删除线叠加，以提升数据集的多样性和平衡性。

常用场景

经典使用场景

在文档分析与识别领域，MMTAD数据集为研究者提供了一个多语言、多领域的文本属性识别基准。该数据集通过包含多种语言（如英语、西班牙语及六种南亚语言）和多样化的文档类型（如立法记录、教科书等），成为评估文本属性识别模型性能的黄金标准。其丰富的标注信息（如粗体、斜体、下划线等）使得研究者能够全面测试模型在不同文本属性上的识别能力。

解决学术问题

MMTAD数据集有效解决了文本属性识别中的多语言和多领域适应性问题。传统方法在跨语言或跨领域场景下表现不佳，而MMTAD通过提供多样化的真实文档图像和上下文感知的数据增强技术，显著提升了模型对文本属性的鲁棒性。该数据集还为解决类别不平衡问题（如斜体或删除线样本较少）提供了科学依据，推动了相关算法的进步。

实际应用

在实际应用中，MMTAD数据集为多语言文档处理系统提供了重要支持。例如，在法律文件分析、教育材料自动标注以及跨语言信息检索等场景中，基于MMTAD训练的模型能够准确识别文本属性，从而提升文档处理效率。其覆盖的多种语言和领域特性，使其成为全球化企业文档管理系统的理想选择。

数据集最近研究