five

Paper2Fig100k

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Paper2Fig100k
下载链接
链接失效反馈
官方服务:
资源简介:
来自研究论文的超过100k个图形图像和文本标题的数据集。图形图像显示我n arXiv.org的研究论文的图表、方法和架构。我们还为每个图形提供文本标题,以及对图形的OCR检测和识别 (边界框和文本)。数据集结构由一个名为 “数字” 的目录和两个JSON文件 (训练和测试) 组成,其中包含每个图形的数据。每个JSON对象包含有关图形的以下信息: figure_id: 基于arXiv标识符的图形标识: <yymm>。<xxxxxx>-图形 <I>-<k>.png.ca选项: 从与图形相关的论文中提取的文本对。例如,该图的实际标题或对手稿中该图的引用。ocr_result: 在图像上执行OCR文本识别的结果。我们提供图像中存在的三胞胎 (边界框,置信度,文本) 的列表。方面: 图像的纵横比 (H/W)。
提供机构:
OpenDataLab
创建时间:
2022-11-18
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Paper2Fig100k数据集包含超过10万个来自arXiv研究论文的图形图像及其文本标题,涵盖图表、方法和架构等内容,并提供OCR检测结果。该数据集由计算机视觉中心等机构于2022年11月发布,结构包括图像目录和JSON文件,用于训练和测试任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作