five

im2latex-100k

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/im2latex-100k
下载链接
链接失效反馈
官方服务:
资源简介:
用于 OpenAI 的 image-2-latex 系统任务的预构建数据集。包括总共约 10 万个公式和图像,分为训练集、验证集和测试集。公式是从此处提供的 LaTeX 源解析的:http://www.cs.cornell.edu/projects/kddcup/datasets.html(最初来自 arXiv)每个图像都是固定大小的 PNG 图像。公式是黑色的,图像的其余部分是透明的。有关相关工具(例如标记器),请查看此存储库:https://github.com/Miffyli/im2latex-dataset 对于预先制作的评估脚本和构建的 im2latex 系统,请查看此存储库:https://github.com/harvardnlp/ im2markup formulas_im2latex.lst 中使用的换行符是 UNIX 样式的换行符 (\n)。使用其他类型的换行符读取文件会导致行数稍有错误(104563 而不是 103558),从而破坏了该数据集使用的结构。 Python 3.x 默认使用运行系统的换行符读取文件,为避免此文件必须使用 newlines="\n" 打开(例如 open("formulas_im2latex.lst", newline="\n"))。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作