stzhao/AnyWord-3M
收藏Hugging Face2024-12-20 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/stzhao/AnyWord-3M
下载链接
链接失效反馈官方服务:
资源简介:
目前,用于文本生成任务的公开数据集相对较少,尤其是涉及非拉丁文字的语言。为了解决这个问题,我们引入了一个名为AnyWord-3M的大规模多语言数据集。该数据集中的图像来源于Noah-Wukong、LAION-400M以及OCR识别数据集,如ArT、COCO-Text、RCTW、LSVT、MLT、MTWI、ReCTS等。这些图像涵盖了包含文本的各种场景,包括街景、书籍封面、广告、海报和电影帧。除了直接利用标注信息的OCR数据集外,所有其他图像都使用PP-OCR的检测和识别模型进行处理。随后,使用BLIP-2生成文本描述。经过严格的过滤规则和细致的后处理,我们总共获得了3,034,486张图像,包含超过900万行文本和超过2000万个字符或拉丁文字符。此外,我们从Wukong和LAION子集中随机选择了1000张图像来创建评估集AnyText-benchmark,专门用于评估中文和英文文本生成的准确性和质量。其余图像作为训练集AnyWord-3M,其中包括约160万张中文图像、139万张英文图像和1万张其他语言的图像,包括日语、韩语、阿拉伯语、孟加拉语和印地语。有关详细的统计分析和随机选择的示例图像,请参阅我们的论文AnyText。(注:本次发布的数据集版本为V1.1)
AnyWord-3M is a large-scale multilingual dataset containing 3,034,486 images covering various scenes with text. The images are sourced from Noah-Wukong, LAION-400M, and multiple OCR recognition datasets. All images are processed using the detection and recognition models of PP-OCR and text descriptions are generated using BLIP-2. After rigorous filtering and meticulous post-processing, the dataset contains over 9 million lines of text and more than 20 million characters. The dataset also includes an evaluation set, AnyText-benchmark, for assessing the accuracy and quality of Chinese and English text generation. The training set, AnyWord-3M, contains approximately 1.6 million Chinese images, 1.39 million English images, and 10,000 images in other languages.
提供机构:
stzhao
搜集汇总
数据集介绍

构建方式
在视觉文本生成领域,数据资源的稀缺性,特别是非拉丁语系文本的匮乏,制约了多语言模型的发展。AnyWord-3M数据集通过整合多元数据源构建而成,其图像素材主要源自Noah-Wukong、LAION-400M以及多个公开OCR识别数据集,如ArT、COCO-Text和RCTW等。这些图像覆盖了街景、书籍封面、广告海报及影视画面等多种包含文本的现实场景。对于非OCR来源的图像,研究团队运用PP-OCR模型进行文本检测与识别,并借助BLIP-2模型生成对应的文本描述。经过一系列严格的过滤规则与精细的后处理流程,最终形成了包含超过300万张图像、900万行文本以及2000万字符的大规模语料库。
特点
该数据集的核心特征在于其显著的多语言覆盖能力与丰富的场景多样性。它不仅包含了约160万张中文图像和139万张英文图像,还涵盖了日语、韩语、阿拉伯语、孟加拉语和印地语等语种的万余张样本,有效缓解了非拉丁文本数据的短缺问题。数据内容跨越了自然场景、文档、艺术设计等多个维度,确保了文本形式的广泛性与复杂性。此外,团队还专门从Wukong和LAION子集中抽取了1000张图像,构建了独立的评估集AnyText-benchmark,为精准评估中英文文本生成的准确性与质量提供了标准化测试基准。
使用方法
该数据集主要服务于文本到图像的生成与编辑模型的训练与评估。研究人员可将规模达300余万的训练集AnyWord-3M用于训练多语言视觉文本生成模型,以提升模型在复杂场景下生成准确、自然文本的能力。其附带的评估集AnyText-benchmark则为模型性能提供了专门的量化评测平台,尤其适用于衡量中英文文本的生成精度。数据以Parquet格式分多个配置文件组织,用户可根据需要加载特定子集,例如专注于OCR任务或通用文本生成任务,从而灵活支持不同研究方向的需求。
背景与挑战
背景概述
在视觉文本生成与编辑领域,多语言文本的准确渲染一直是核心研究难题。AnyWord-3M数据集由AnyText团队于2023年创建,旨在应对非拉丁语系文本生成任务中公开数据稀缺的困境。该数据集整合了Noah-Wukong、LAION-400M及多个OCR识别数据集,涵盖街景、广告、海报等丰富场景,包含超过300万张图像与2000万字符规模的多语言文本标注。其构建为跨语言文本生成模型提供了关键训练资源,显著推动了多模态生成技术在全球化应用中的发展。
当前挑战
该数据集致力于解决多语言视觉文本生成中文本语义与图像空间对齐的复杂问题,尤其面临非拉丁字符字形多样性与场景背景干扰的双重挑战。在构建过程中,团队需克服原始图像文本标注稀疏性,通过PP-OCR模型进行跨场景文本检测与识别,并利用BLIP-2生成描述文本。数据清洗阶段需设计精细过滤规则以处理噪声标注,同时平衡中英文及其他语种的数据分布,确保多语言文本生成的均衡性与准确性。
常用场景
经典使用场景
在视觉文本生成领域,AnyWord-3M数据集以其大规模多语言特性,成为训练文本到图像生成模型的核心资源。该数据集整合了街景、广告、海报等多样化场景的图像,并附有精确的文本标注,为模型学习文本与视觉元素的复杂关联提供了丰富素材。研究者常利用其海量图文对,驱动生成式模型在图像中嵌入自然、准确的文本内容,尤其在处理非拉丁语系文字时展现出独特价值。
解决学术问题
该数据集有效应对了多语言视觉文本生成研究中数据稀缺的挑战,特别是针对中文、阿拉伯文等非拉丁脚本的语言。通过融合OCR识别数据与生成式描述,它解决了传统数据集中文本多样性不足、场景覆盖有限的问题,为评估文本生成的准确性与美学质量提供了基准。其构建促进了跨语言文本嵌入、字形一致性建模等前沿课题的探索,推动了多模态生成技术的理论进展。
衍生相关工作
围绕AnyWord-3M,已衍生出如AnyText等多语言视觉文本生成与编辑的经典研究。该工作利用数据集训练扩散模型,实现了对图像中文本内容的精准控制与修改。后续研究进一步拓展了其在风格化文本生成、低资源语言适配等方向的探索,催生了系列改进模型与评估框架,持续丰富着多模态生成领域的学术生态。
以上内容由遇见数据集搜集并总结生成



