Rosetta

Name: Rosetta
Creator: 法国鲁昂 Normandy 大学 LITIS EA4108
Published: 2025-04-09 20:58:25
License: 暂无描述

arXiv2025-04-09 更新2025-04-11 收录

下载链接：

https://github.com/TSResearch-hub/Rosetta-ICL-classif

下载链接

链接失效反馈

官方服务：

资源简介：

Rosetta数据集是由鲁昂 Normandy 大学LITIS EA4108研究机构创建的，用于训练Rosetta模型，该模型能够利用上下文信息对未见过的文本和符号模式进行分类。数据集的生成策略旨在确保模型依赖上下文驱动预测，而不是依赖语言知识。该数据集使模型能够适应各种上下文情景，模拟真实世界的识别挑战。

The Rosetta dataset was created by the LITIS EA 4108 research institute at the University of Rouen Normandy for training the Rosetta model. This model utilizes contextual information to classify unseen text and symbolic patterns. The dataset's generation strategy is designed to ensure that the model relies on context-driven predictions rather than linguistic knowledge. This dataset enables the model to adapt to various contextual scenarios and simulate real-world recognition challenges.

提供机构：

法国鲁昂 Normandy 大学 LITIS EA4108

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

Rosetta数据集的构建采用了高度控制的合成数据生成策略，旨在支持多模态上下文学习（MICL）。研究团队设计了动态生成机制，通过随机采样1至15个字符的序列并应用4000种开源字体渲染查询图像，确保数据在视觉多样性上的覆盖。上下文图像Xc的生成通过两个关键参数调控：查询覆盖率α（0%-100%）控制上下文与查询图像的相关性，添加符号Sadd（0-20个）引入干扰项以模拟真实场景的噪声。训练数据严格限定于小写拉丁字母，并通过上下文感知分词器（CAT）实现动态标签编码，从而消除语言偏见并强化视觉关联性。

使用方法

使用Rosetta数据集需遵循多模态上下文学习框架。首先需构建包含查询图像X和上下文图像Xc的数据对，其中Xc需附带经CAT编码的标签序列Tc。模型推理时，VPG模块将双图像转换为视觉令牌序列，与文本令牌通过特殊标记拼接后输入Transformer解码器。关键操作在于调整α和β参数以控制上下文信息量：高α值（接近100%）确保查询字符全覆盖，低β值减少无关符号干扰。评估可采用字符错误率（CER）和令牌错误率（TER）双指标，其中TER专门衡量模型对⟨ooc⟩令牌（上下文外符号）的识别能力。对于新字母表任务，需保持训练时的字体多样性原则，并通过CAT的开放词汇特性实现跨语言迁移。

背景与挑战

背景概述

Rosetta数据集由法国鲁昂诺曼底大学的Tom Simon等研究人员于2025年提出，旨在解决开放词汇文本和符号识别中的关键挑战。该数据集依托多模态上下文学习（MICL）框架，通过上下文感知分词器（CAT）实现无需显式重训练的未知模式分类，突破了传统OCR模型在字体、语言和分布外数据上的局限性。其创新性体现在将罗塞塔石碑的类比解码思想算法化，支持中文、希腊文、俄文等多语种跨文字系统泛化，为文档分析与模式识别领域提供了新的基准范式。

当前挑战

Rosetta面临的核心挑战体现在两个方面：在领域问题层面，需解决开放词汇场景下无限类别符号的动态编码问题，传统固定词汇表方法无法适应未训练字符的即时分类；在构建过程中，需平衡上下文信息的充分性与噪声干扰，确保模型既能利用视觉关联线索（如相同字体渲染），又避免依赖潜在的语言偏置。实验数据显示，当上下文覆盖率低于60%或干扰符号超过15个时，模型字符错误率（CER）显著上升至13.5%，凸显了高质量上下文样本筛选的重要性。

常用场景

经典使用场景

Rosetta数据集在文本和符号识别领域展现了其独特的价值，特别是在处理未见过的文本和符号模式时。通过利用多模态上下文学习（MICL），Rosetta能够在无需显式重新训练的情况下，仅凭少量示例对文档中的新脚本模式进行分类。这一能力使其在跨语言文本识别、符号模式分类等任务中表现出色，尤其是在处理分布偏移较大的数据时，展现了强大的适应性。

解决学术问题

Rosetta数据集解决了传统OCR模型在处理未见过的文本和符号模式时的局限性。传统模型依赖于固定的视觉模式与标签之间的关联，难以适应新的模式或语言。Rosetta通过上下文驱动的分类范式，动态地根据上下文对符号进行分类，从而实现了开放词汇分类，能够处理训练时未遇到的字符类别。这一方法显著提升了模型在跨语言和跨符号系统识别任务中的表现。

实际应用

在实际应用中，Rosetta数据集为多语言OCR系统、符号识别工具以及文档处理软件提供了强大的支持。例如，在处理历史文档或罕见语言的文本时，Rosetta能够通过上下文信息快速适应新的字符集，而无需额外的训练。此外，其在抽象符号识别中的表现也为工业设计、艺术创作等领域的符号分类任务提供了新的解决方案。

数据集最近研究