five

单行内容检测数据集(LND)

收藏
魔搭社区2025-12-01 更新2024-11-16 收录
下载链接:
https://modelscope.cn/datasets/irhawks/line-det
下载链接
链接失效反馈
官方服务:
资源简介:
面向复杂文档图像中的内容识别需求,在图像中标出来每一行文本。其中段落中的每一行标为一个文本行(“单行内容”),整张图片、表格、算法块标注为“其他类型”,孤立出来的公式,被标注为“行间公式”。本次发布的是初版数据集,预标注中存在若干错误,因此会有一些行内公式。

To address the content recognition requirements for complex document images, each line of text within the images should be annotated. Specifically, each line within a paragraph is labeled as a "text line" (i.e., "single-line content"), while entire images, tables, and algorithm blocks are annotated as "other types", and isolated standalone mathematical formulas are marked as "inter-line formulas". This is the first edition of the released dataset. Due to several errors in the pre-annotations, some inline formulas are present in the dataset.
提供机构:
maas
创建时间:
2024-11-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
单行内容检测数据集(LND)专注于检测复杂文档图像中的行级内容,如文本、公式和浮动体,并标注为显示公式、单行内容和其他类型三类。该数据集旨在提升文档对象检测系统,以支持文本识别、公式识别等模型的集成应用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务