smbu123456/RealText-V2

Name: smbu123456/RealText-V2
Creator: smbu123456
Published: 2026-05-01 09:31:53
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/smbu123456/RealText-V2

下载链接

链接失效反馈

官方服务：

资源简介：

RealText-V2是一个大规模多语言文档伪造分析基准数据集，专为多语言文本图像伪造分析而设计，在规模和标注深度上均处于领先地位。该数据集包含20,000多张图像，覆盖6种语言（英语、中文、阿拉伯语、泰语、马来语和印尼语）和6个领域（金融、教育、医疗、直播、电商和自然场景）。数据集提供多粒度伪造（字符级、词级和语义级篡改）、多源样本（真实世界和AIGC合成的伪造样本）以及丰富的多任务标注（像素级定位掩码、篡改类型标签和专家级自然语言解释）。训练集包含13,500个样本，其中7,500个为伪造样本，6,000个为原始样本。数据集的标注格式包括结构化伪造分析报告，详细描述了伪造结论、风险评分、异常类型、位置、原因和总结。

RealText-V2 is a large-scale multilingual document benchmark dataset purpose-built for multilingual text image forgery analysis, pioneering in both scale and annotation depth. It features 20K+ images across 6 languages (English, Chinese, Arabic, Thai, Malay, and Indonesian) and 6 domains (finance, education, healthcare, live streaming, e-commerce, and natural scenes). The dataset includes multi-granularity forgery (character-level, word-level, and semantic-level tampering), multi-source samples (real-world and AIGC-synthesized forgery samples), and rich multi-task annotations (pixel-level localization masks, tampering type labels, and expert-level natural language explanations). The training set consists of 13,500 samples, with 7,500 forged and 6,000 pristine samples. The annotation format includes structured forgery analysis reports detailing forgery conclusions, risk scores, anomaly types, locations, reasons, and summaries.

提供机构：

smbu123456

搜集汇总

数据集介绍

构建方式

RealText-V2 数据集专为多语言文本图像伪造分析而构建，涵盖了英语、中文、阿拉伯语、泰语、马来语和印尼语六种语言，涉及金融、教育、医疗、直播、电商和自然场景六大领域。数据集中包含超过两万张图像，其中训练集由13,500张样本组成，包括7,500张伪造图像和6,000张真实图像。伪造样本来源于真实世界和人工智能生成内容，通过字符级、词语级和语义级的多粒度篡改方式生成，并提供了像素级定位掩码、篡改类型标签以及专家级的自然语言解释报告，确保了数据的丰富性和多样性。

特点

该数据集具有多语言、多领域和多粒度的显著特点，覆盖了拉丁字母、表意文字、阿拉伯字母和泰文等不同类型的文字系统，为伪造分析带来了独特的挑战。其样本规模远超现有同类数据集，且提供了包括二值化篡改掩码、结构化分析报告在内的多层次标注，支持图像分割、文本分类和视觉问答等多种任务。数据集的评测数据集将用于ACM MM 2026竞赛，进一步推动了文档伪造分析领域的前沿研究。

使用方法

数据集按目录结构组织，训练图像、掩码和报告分别存储在对应的子目录中，并配有元数据索引文件。用户可根据sample_id、language、type等字段筛选样本，利用图像与掩码的对应关系进行语义分割或伪造检测任务，也可结合报告中的文字描述进行自然语言处理相关的分析。当前测试数据暂未公开，待竞赛结束后方可获取，因此用户目前仅能使用训练数据进行模型开发与评估。

背景与挑战

背景概述

RealText-V2是由ACM MM 2026竞赛组织团队构建的大型多语种文档伪造分析基准数据集，于2026年发布，旨在应对日益严峻的文档篡改与伪造检测挑战。该数据集汇聚了来自金融、教育、医疗、直播、电商及自然场景六大领域的超过两万张图像，覆盖英语、中文、阿拉伯语、泰语、马来语和印尼语六种语言，并包含字符级、词语级及语义级的多粒度伪造样本。通过提供像素级定位掩码、篡改类型标签及专家级自然语言解释报告，RealText-V2推动了文档伪造分析从二元分类向可解释性分析的范式转变，为相关研究树立了新的标准。

当前挑战

RealText-V2所解决的领域核心挑战在于多语言、多领域文档图像中伪造痕迹的精准检测与解释，尤其是面对从真实采集到AIGC合成等多源伪造生成管线时，现有方法难以兼顾跨脚本系统的泛化能力与细粒度局部异常的定位精度。数据集构建本身亦面临多重困难：需在六种语言体系中平衡伪造样本与原始样本分布，同时确保字符级和语义级篡改的真实性与多样性；此外，专家级自然语言解释报告的标注需引用明确证据并量化风险评分，这对标注人员的跨学科知识及一致性提出了极高要求。

常用场景

经典使用场景

在文档伪造分析这一关键而复杂的领域中，RealText-V2作为迄今规模最大的多语种文本图像伪造基准数据集，其经典使用场景聚焦于训练和评估面向真实世界文档的多粒度篡改检测模型。研究人员可借助该数据集涵盖的字符级、词语级和语义级篡改样本，以及像素级定位掩码与篡改类型标签，系统性地开发能够同时检测并定位细微伪造痕迹的深度学习架构，尤其在拉丁语系（如英语）、语素文字（如汉语）、阿拉伯文以及泰文等多样书写系统交织的复杂场景下，推动统一的跨语种文档伪造分析范式的形成。

实际应用

在市场应用层面，RealText-V2为构建高鲁棒性的自动化文档验真系统奠定了坚实的数据基石。其直接服务于金融场景中对伪造支票与合同的智能审核、教育领域内各类证书与成绩单的真伪校验，以及电商直播平台中虚假凭证截图的高速筛查。此外，数据集提供的专家级自然语言解释报告更是开辟了人机协同的可解释取证应用路径，使得系统不仅能判定文档真伪，还能以文本形式阐述具体伪造位置与手法，显著提升非专业用户在证件审核、法律取证与在线风控等实际业务流程中的信任度与决策效率。

衍生相关工作

作为一个开创性的基准，RealText-V2已直接驱动了ACM MM 2026 MGC挑战赛的设立，围绕可解释取证与对抗生成两大前沿主题，衍生了多模态欺诈分析、跨语言篡改检测以及伪造溯源生成等一系列经典工作。基于该数据集的丰富标注，研究者相继提出了融合视觉-语言模型的端到端文档伪造解释框架、针对AIGC文本的高斯差分伪影检测方法，以及面向多语种密集文本篡改的注意力校正网络等创新性成果。这些相关工作不仅验证了该数据集在驱动算法迭代上的核心作用，也为未来文档安全领域奠定了通往更深层次、更广语种覆盖与更强可解释性研究的里程碑式起点。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集