wanderkid/UniMER_Dataset
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/wanderkid/UniMER_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
- zh
pretty_name: UniMER_Dataset
tags:
- data
- math
- MER
size_categories:
- 1M<n<10M
---
# UniMER Dataset
For detailed instructions on using the dataset, please refer to the project homepage: [UniMERNet Homepage](https://github.com/opendatalab/UniMERNet/tree/main)
## Introduction
The UniMER dataset is a specialized collection curated to advance the field of Mathematical Expression Recognition (MER). It encompasses the comprehensive UniMER-1M training set, featuring over one million instances that represent a diverse and intricate range of mathematical expressions, coupled with the UniMER Test Set, meticulously designed to benchmark MER models against real-world scenarios. The dataset details are as follows:
- **UniMER-1M Training Set:**
- Total Samples: 1,061,791 Latex-Image pairs
- Composition: A balanced mix of concise and complex, extended formula expressions
- Aim: To train robust, high-accuracy MER models, enhancing recognition precision and generalization
- **UniMER Test Set:**
- Total Samples: 23,757, categorized into four types of expressions:
- Simple Printed Expressions (SPE): 6,762 samples
- Complex Printed Expressions (CPE): 5,921 samples
- Screen Capture Expressions (SCE): 4,742 samples
- Handwritten Expressions (HWE): 6,332 samples
- Purpose: To provide a thorough evaluation of MER models across a spectrum of real-world conditions
## Visual Data Samples

## Data Statistics
| **Dataset** | **Sub** | **Source** | **Sample Size** |
|:-----------:|:-------:|:-------------------------------------------:|:---------------:|
| UniMER-1M | | Pix2tex Train | 158,303 |
| | | Arxiv † | 820,152 |
| | | CROHME Train | 8,834 |
| | | HME100K Train ‡ | 74,502 |
| UniMER-Test | SPE | Pix2tex Validation | 6,762 |
| | CPE | Arxiv † | 5,921 |
| | SCE | PDF Screenshot † | 4,742 |
| | HWE | CROHME & HME100K | 6,332 |
† Indicates data collected, processed, and annotated by our team.
‡ For copyright compliance, please manually download this dataset portion: [HME100K dataset](https://ai.100tal.com/dataset).
## Acknowledgements
We would like to express our gratitude to the creators of the [Pix2tex](https://github.com/lukas-blecher/LaTeX-OCR), [CROHME](https://www.cs.rit.edu/~rlaz/files/CROHME+TFD%E2%80%932019.pdf), and [HME100K](https://github.com/tal-tech/SAN) datasets. Their foundational work has significantly contributed to the development of the UniMER dataset.
## Citations
```text
@misc{wang2024unimernet,
title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition},
author={Bin Wang and Zhuangcheng Gu and Chao Xu and Bo Zhang and Botian Shi and Conghui He},
year={2024},
eprint={2404.15254},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{conghui2022opendatalab,
author={He, Conghui and Li, Wei and Jin, Zhenjiang and Wang, Bin and Xu, Chao and Lin, Dahua},
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
howpublished = {\url{https://opendatalab.com}},
year={2022}
}
```
---
# UniMER 数据集
数据集使用详细说明请参考项目主页:[UniMERNet 主页](https://github.com/opendatalab/UniMERNet/tree/main)
## 简介
UniMER数据集是专门为通用数学表达式识别(MER)发布的数据集。它包含了真实全面的UniMER-1M训练集,拥有超过一百万个代表广泛和复杂数学表达式的实例,以及精心设计的UniMER测试集,用于在真实世界场景中评估MER模型。数据集详情如下:
- **UniMER-1M 训练集:**
- 总样本数:1,061,791
- 组成:简洁与复杂、扩展公式表达式的平衡融合
- 目标:帮助训练鲁棒性强、高精度的MER模型,增强识别准确性和模型泛化能力
- **UniMER 测试集:**
- 总样本数:23,757,分为四种表达式类型:
- 简单印刷表达式(SPE):6,762 个样本
- 复杂印刷表达式(CPE):5,921 个样本
- 屏幕截图表达式(SCE):4,742 个样本
- 手写表达式(HWE):6,332 个样本
- 目的:为MER模型提供一个全面的评估平台,以准确评估真实场景下各类公式识别能力
## 视觉数据样本

## 数据统计
| **数据集** | **子集** | **来源** | **样本数量** |
|:-----------:|:-------:|:-------------------------------------------:|:------------:|
| UniMER-1M | | Pix2tex 训练集 | 158,303 |
| | | Arxiv † | 820,152 |
| | | CROHME 训练集 | 8,834 |
| | | HME100K 训练集 ‡ | 74,502 |
| UniMER-测试集 | SPE | Pix2tex 验证集 | 6,762 |
| | CPE | Arxiv † | 5,921 |
| | SCE | PDF 截图 † | 4,742 |
| | HWE | CROHME & HME100K | 6,332 |
† 表示由我们团队收集、处理和注释的数据。
‡ 由于版权合规,请手动下载此部分数据集:[HME100K 数据集](https://ai.100tal.com/dataset)。
## 致谢
我们对[Pix2tex](https://github.com/lukas-blecher/LaTeX-OCR), [CROHME](https://www.cs.rit.edu/~rlaz/files/CROHME+TFD%E2%80%932019.pdf)和[HME100K](https://github.com/tal-tech/SAN) 数据集的创建者表示感谢。他们的基础工作对 UniMER 数据集的构建及发布做出了重大贡献。
## 引用
```text
@misc{wang2024unimernet,
title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition},
author={Bin Wang and Zhuangcheng Gu and Chao Xu and Bo Zhang and Botian Shi and Conghui He},
year={2024},
eprint={2404.15254},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{conghui2022opendatalab,
author={He, Conghui and Li, Wei and Jin, Zhenjiang and Wang, Bin and Xu, Chao and Lin, Dahua},
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
howpublished = {\url{https://opendatalab.com}},
year={2022}
}
```
license: Apache-2.0
language:
- 英语
- 中文
pretty_name: UniMER数据集
tags:
- 数据
- 数学
- 数学表达式识别(MER)
size_categories:
- 100万<n<1000万
# UniMER数据集
有关该数据集的详细使用说明,请参阅项目主页:[UniMERNet 主页](https://github.com/opendatalab/UniMERNet/tree/main)
## 简介
UniMER数据集是专为推动数学表达式识别(Mathematical Expression Recognition, MER)领域发展而构建的专业数据集集合。它包含规模全面的UniMER-1M训练集(涵盖超百万条涵盖多样且复杂的各类数学表达式的样本),以及精心设计的UniMER测试集,用于在真实场景下对MER模型进行性能基准测试。数据集详情如下:
- **UniMER-1M 训练集:**
- 总样本数:1,061,791 个LaTeX-图像配对样本
- 样本构成:均衡涵盖简洁式与复杂式各类拓展数学表达式
- 构建目标:助力训练鲁棒性强、识别精度高的MER模型,提升模型的识别精度与泛化能力
- **UniMER 测试集:**
- 总样本数:23,757,分为四类表达式:
- 简单印刷体表达式(Simple Printed Expressions, SPE):6,762 个样本
- 复杂印刷体表达式(Complex Printed Expressions, CPE):5,921 个样本
- 屏幕截图表达式(Screen Capture Expressions, SCE):4,742 个样本
- 手写体表达式(Handwritten Expressions, HWE):6,332 个样本
- 评测目标:为MER模型提供覆盖各类真实场景的全面性能评估基准
## 视觉数据样本

## 数据统计
| **数据集** | **子集** | **来源** | **样本数量** |
|:-----------:|:-------:|:-------------------------------------------:|:------------:|
| UniMER-1M | | Pix2tex 训练集 | 158,303 |
| | | arXiv † | 820,152 |
| | | CROHME 训练集 | 8,834 |
| | | HME100K 训练集 ‡ | 74,502 |
| UniMER-测试集 | SPE | Pix2tex 验证集 | 6,762 |
| | CPE | arXiv † | 5,921 |
| | SCE | PDF 截图 † | 4,742 |
| | HWE | CROHME & HME100K | 6,332 |
† 表示由本团队完成收集、处理与标注的数据。
‡ 出于版权合规要求,请手动下载该部分数据集:[HME100K 数据集](https://ai.100tal.com/dataset)。
## 致谢
谨向[Pix2tex](https://github.com/lukas-blecher/LaTeX-OCR)、[CROHME](https://www.cs.rit.edu/~rlaz/files/CROHME+TFD%E2%80%932019.pdf)以及[HME100K](https://github.com/tal-tech/SAN)数据集的创建者致以诚挚谢意。他们的开创性工作为UniMER数据集的构建提供了关键支撑。
## 引用
text
@misc{wang2024unimernet,
title={UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition},
author={Bin Wang and Zhuangcheng Gu and Chao Xu and Bo Zhang and Botian Shi and Conghui He},
year={2024},
eprint={2404.15254},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{conghui2022opendatalab,
author={He, Conghui and Li, Wei and Jin, Zhenjiang and Wang, Bin and Xu, Chao and Lin, Dahua},
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
howpublished = {url{https://opendatalab.com}},
year={2022}
}
提供机构:
wanderkid
原始信息汇总
UniMER 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 语言: 英语、中文
- 名称: UniMER_Dataset
- 标签: 数据、数学、MER
- 大小: 1M<n<10M
数据集组成
-
UniMER-1M 训练集:
- 总样本数: 1,061,791
- 组成: 简洁与复杂、扩展公式表达式的平衡融合
- 目标: 帮助训练鲁棒性强、高精度的MER模型,增强识别准确性和模型泛化能力
-
UniMER 测试集:
- 总样本数: 23,757
- 分类: 四种表达式类型
- 简单印刷表达式(SPE): 6,762 个样本
- 复杂印刷表达式(CPE): 5,921 个样本
- 屏幕截图表达式(SCE): 4,742 个样本
- 手写表达式(HWE): 6,332 个样本
- 目的: 为MER模型提供一个全面的评估平台,以准确评估真实场景下各类公式识别能力
数据统计
-
UniMER-1M 训练集:
- Pix2tex 训练集: 158,303 样本
- Arxiv: 820,152 样本
- CROHME 训练集: 8,834 样本
- HME100K 训练集: 74,502 样本
-
UniMER 测试集:
- SPE: Pix2tex 验证集: 6,762 样本
- CPE: Arxiv: 5,921 样本
- SCE: PDF 截图: 4,742 样本
- HWE: CROHME & HME100K: 6,332 样本
致谢
- 感谢 Pix2tex, CROHME, HME100K 数据集的创建者,他们的工作对 UniMER 数据集的构建有重大贡献。
搜集汇总
数据集介绍

构建方式
UniMER数据集的构建基于对多种来源数据的整合与处理,旨在为数学表达式识别(MER)领域提供一个全面且多样化的训练与测试平台。该数据集包括UniMER-1M训练集和UniMER测试集。训练集通过整合Pix2tex、Arxiv、CROHME和HME100K等多个数据源,形成了超过一百万个Latex-Image对,涵盖了从简洁到复杂的多种数学表达式。测试集则进一步细分为简单印刷表达式(SPE)、复杂印刷表达式(CPE)、屏幕截图表达式(SCE)和手写表达式(HWE),以模拟真实世界中的多样化应用场景。
使用方法
使用UniMER数据集时,用户可以利用其提供的Latex-Image对进行模型训练,以提升数学表达式识别的准确性和鲁棒性。训练集适用于构建和优化MER模型,而测试集则用于评估模型在不同场景下的表现。用户可以通过访问项目主页获取详细的使用说明和数据下载链接。此外,由于部分数据集涉及版权问题,用户需手动下载相关部分,并确保在使用过程中遵守相关版权规定。
背景与挑战
背景概述
数学表达式识别(MER)领域近年来取得了显著进展,但仍面临复杂表达式识别的挑战。UniMER数据集由Bin Wang等研究人员于2024年发布,旨在推动MER技术的进一步发展。该数据集包含超过一百万个Latex-Image对,涵盖了从简洁到复杂的多种数学表达式,旨在训练高精度、鲁棒性强的MER模型。通过引入多样化的表达式类型和真实场景的测试集,UniMER数据集为MER模型的评估提供了全面的基准,对提升数学表达式识别技术的准确性和泛化能力具有重要意义。
当前挑战
UniMER数据集的构建面临多重挑战。首先,数据集需要涵盖广泛的数学表达式类型,包括简单印刷、复杂印刷、屏幕截图和手写表达式,这要求数据来源的多样性和高质量的标注。其次,数据集的构建过程中需要处理不同来源数据的版权问题,确保合规性。此外,如何平衡训练集和测试集的多样性与难度,以确保模型在真实场景中的泛化能力,也是一大挑战。最后,数据集的规模和复杂性对存储、处理和模型训练提出了更高的技术要求。
常用场景
经典使用场景
UniMER数据集在数学表达式识别(MER)领域中具有广泛的应用,其经典使用场景包括训练和评估MER模型。通过提供超过一百万个LaTeX-Image对,UniMER-1M训练集能够帮助研究人员训练出高精度和鲁棒性强的模型。同时,UniMER测试集通过包含简单印刷表达式、复杂印刷表达式、屏幕截图表达式和手写表达式,为模型在真实世界场景中的表现提供了全面的评估平台。
解决学术问题
UniMER数据集解决了数学表达式识别领域中模型泛化能力不足的问题。通过提供多样化的训练数据和多样的测试场景,该数据集显著提升了模型在不同表达式类型和复杂度下的识别准确性。这不仅推动了MER技术的进步,也为相关领域的研究提供了坚实的基础,具有重要的学术价值和实际意义。
实际应用
UniMER数据集在实际应用中具有广泛的前景,特别是在教育、科研和工程领域。例如,在教育软件中,该数据集可以用于开发自动识别和解析手写数学表达式的工具,提升学习体验。在科研领域,它可以用于自动化处理和分析复杂的数学公式,提高研究效率。此外,在工程设计中,该数据集也有助于实现对复杂技术文档中数学表达式的自动识别和处理。
数据集最近研究
最新研究方向
在数学表达式识别(MER)领域,UniMER数据集的最新研究方向主要集中在提升模型的泛化能力和应对复杂场景的识别精度。该数据集通过包含多种类型的数学表达式,如简单印刷表达式、复杂印刷表达式、屏幕截图表达式和手写表达式,为研究者提供了一个全面的评估平台。前沿研究致力于开发能够处理多样化输入的模型,以适应从学术文档到实际应用中的各种场景。此外,UniMER数据集的发布也推动了跨领域研究,如结合自然语言处理和计算机视觉技术,以实现更高效的数学表达式理解和转换。这些研究不仅提升了MER技术的实际应用价值,也为相关领域的技术进步提供了重要支持。
以上内容由遇见数据集搜集并总结生成



