UniMER Dataset
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/UniMER-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
UniMER数据集是专门为通用数学表达式识别(MER)、数据公式发布的数据集。它包含了真实全面的UniMER-1M训练集,拥有超过一百万个代表广泛和复杂数学表达式、数据公式的实例,以及精心设计的UniMER测试集,用于在真实世界场景中评估MER模型。
The UniMER dataset is a specialized dataset released for general mathematical expression recognition (MER) and data formula-related tasks. It includes the realistic and comprehensive UniMER-1M training set, which contains over one million instances representing a wide range of complex mathematical expressions and data formulas, as well as a meticulously designed UniMER test set for evaluating MER models in real-world scenarios.
提供机构:
OpenDataLab
创建时间:
2024-05-05
搜集汇总
数据集介绍

背景与挑战
背景概述
UniMER数据集是一个专门为通用数学表达式识别(MER)设计的大规模数据集,旨在提升模型在真实场景中的识别能力。它包含超过一百万个训练样本(UniMER-1M训练集),以及一个精心设计的测试集(23,757个样本),覆盖简单印刷、复杂印刷、屏幕截图和手写四种表达式类型,为模型训练和评估提供了全面资源。数据集由上海人工智能实验室发布,基于多个公开数据源构建,适用于计算机视觉和自然语言处理领域的预训练与评测任务。
以上内容由遇见数据集搜集并总结生成



