MMTAD
收藏Hugging Face2025-07-25 更新2025-07-26 收录
下载链接:
https://huggingface.co/datasets/Tex-TAR/MMTAD
下载链接
链接失效反馈官方服务:
资源简介:
MMTAD数据集是一个包含1623个真实世界文档图像的多语言多领域文本属性数据集,这些图像在不同的光照、布局和噪声条件下捕获。数据集提供了1117716个单词级别的注释,分为两组属性:T1(粗体、斜体、粗斜体)和T2(下划线、删除线、下划线和删除线)。数据集覆盖了英语、西班牙语和六种南亚语言,平均每张图像注释300至500个单词。为解决类别不平衡问题,数据集应用了上下文感知增强技术,如剪切变换以生成额外的斜体,以及添加逼真的噪声下划线和删除线覆盖。
创建时间:
2025-07-22
原始信息汇总
MMTAD数据集概述
数据集基本信息
- 名称: MMTAD (Multilingual Multi-domain Textual Attribute Dataset)
- 开发者: TexTAR团队
- 发布日期: 2025年
- 数据集大小: 231043093.0字节
- 下载大小: 191751258字节
- 测试集样本数: 481个
数据特征
- 特征字段:
image: 图像数据(未解码)annotation_json: 字符串格式的标注信息
数据集内容
- 总样本量: 1,623张真实世界文档图像
- 标注数量: 1,117,716个单词级标注
- 平均标注密度: 每张图像300-500个标注单词
标注属性
-
T1组属性:
- Bold(粗体)
- Italic(斜体)
- Bold & Italic(粗斜体)
-
T2组属性:
- Underline(下划线)
- Strikeout(删除线)
- Underline & Strikeout(下划删除线)
语言与领域覆盖
-
语言:
- 英语、西班牙语
- 6种南亚语言(印地语67.4%,泰卢固语8.2%,马拉地语8.0%,旁遮普语5.9%,孟加拉语5.4%,古吉拉特语/泰米尔语等5.2%)
-
文档类型:
- 立法记录
- 通知
- 教科书
- 公证文件
数据增强
- 斜体增强: 剪切变换生成额外斜体样本
- 噪声增强: 真实噪声的下划线和删除线叠加
文件结构
textar-testset: 文档图像集合testset_labels.json: 图像文件名与属性标注的映射文件
引用格式
bibtex @article{Kumar2025TexTAR, title = {TexTAR: Textual Attribute Recognition in Multi-domain and Multi-lingual Document Images}, author = {Rohan Kumar and Jyothi Swaroopa Jinka and Ravi Kiran Sarvadevabhatla}, booktitle = {International Conference on Document Analysis and Recognition, {ICDAR}}, year = {2025} }
获取方式
python from datasets import load_dataset ds = load_dataset("Tex-TAR/MMTAD")
附加资源
- 项目网站: https://tex-tar.github.io/
搜集汇总
数据集介绍

构建方式
MMTAD数据集构建基于真实世界多语言文档图像,涵盖立法记录、公告、教材及公证文件等多种领域。数据采集过程中充分考虑了光照、布局及噪声条件的多样性,共包含1,623张文档图像,标注了1,117,716个单词级别的文本属性。为应对类别不平衡问题,研究团队采用上下文感知增强技术,如剪切变换生成斜体样本,以及模拟真实噪声的下划线和删除线叠加,确保数据集的丰富性和平衡性。
使用方法
使用MMTAD数据集时,可通过HuggingFace的`load_dataset`函数直接加载,数据集包含文档图像和对应的JSON格式标注文件。标注文件以图像文件名作为键,值为每个单词的文本属性标签。为方便在HuggingFace Data Studio中查看,原始JSON标注文件被转换为行分隔的JSONL格式,包含图像路径和层级化的标注信息。用户可通过访问TexTAR项目网站获取详细文档和资源,进一步探索数据集的应用场景和技术细节。
背景与挑战
背景概述
MMTAD(Multilingual Multi-domain Textual Attribute Dataset)是由Rohan Kumar等研究人员于2025年提出的多语言多领域文本属性识别数据集,旨在解决复杂文档图像中文本属性识别的核心问题。该数据集包含1,623张真实场景下的文档图像,涵盖立法记录、通知、教科书及公证文件等多种类型,覆盖英语、西班牙语及六种南亚语言。通过提供1,117,716个词级标注,MMTAD为研究者在多语言环境下识别粗体、斜体、下划线及删除线等文本属性提供了重要基准。其多样化的语言和领域分布,以及针对类别不平衡设计的上下文感知增强方法,显著推动了文档分析与识别领域的发展。
当前挑战
MMTAD数据集面临的挑战主要体现在两方面:领域问题方面,多语言和多领域文档的复杂性导致文本属性识别难度增加,尤其是不同语言中文本属性的表现形式差异较大,如南亚语言中的特殊字体和排版规则。此外,类别不平衡问题(如斜体和删除线样本较少)对模型训练提出了更高要求。构建过程方面,数据采集需覆盖多样化的光照、布局和噪声条件,确保标注的准确性和一致性具有较高难度。为应对这些挑战,研究团队采用了上下文感知增强技术,如剪切变换生成斜体样本及模拟真实噪声的下划线和删除线叠加,以提升数据集的多样性和平衡性。
常用场景
经典使用场景
在文档分析与识别领域,MMTAD数据集为研究者提供了一个多语言、多领域的文本属性识别基准。该数据集通过包含多种语言(如英语、西班牙语及六种南亚语言)和多样化的文档类型(如立法记录、教科书等),成为评估文本属性识别模型性能的黄金标准。其丰富的标注信息(如粗体、斜体、下划线等)使得研究者能够全面测试模型在不同文本属性上的识别能力。
解决学术问题
MMTAD数据集有效解决了文本属性识别中的多语言和多领域适应性问题。传统方法在跨语言或跨领域场景下表现不佳,而MMTAD通过提供多样化的真实文档图像和上下文感知的数据增强技术,显著提升了模型对文本属性的鲁棒性。该数据集还为解决类别不平衡问题(如斜体或删除线样本较少)提供了科学依据,推动了相关算法的进步。
实际应用
在实际应用中,MMTAD数据集为多语言文档处理系统提供了重要支持。例如,在法律文件分析、教育材料自动标注以及跨语言信息检索等场景中,基于MMTAD训练的模型能够准确识别文本属性,从而提升文档处理效率。其覆盖的多种语言和领域特性,使其成为全球化企业文档管理系统的理想选择。
数据集最近研究
最新研究方向
近年来,MMTAD数据集在文档图像分析与多语言文本属性识别领域引起了广泛关注。该数据集以其多语言、多领域的特性,为研究者在复杂场景下的文本属性识别提供了丰富的实验数据。前沿研究主要集中在利用深度学习模型,如Transformer架构,来处理文档图像中的视觉和位置线索,以识别粗体、斜体、下划线和删除线等文本属性。特别是在多语言环境下,研究者们致力于解决类别不平衡问题,通过上下文感知的数据增强技术,如剪切变换和噪声叠加,提升模型在低资源语言上的表现。MMTAD数据集的发布,不仅推动了文本属性识别技术的发展,还为跨语言文档处理系统的优化提供了重要基准。
以上内容由遇见数据集搜集并总结生成



