TNCR
收藏arXiv2021-06-19 更新2024-06-21 收录
下载链接:
https://github.com/abdoelsayed2016/TNCR_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
TNCR数据集是由萨特巴耶夫大学的机器学习与数据科学系创建的,专注于表格检测和分类。该数据集包含9428张来自免费网站的图像,这些图像质量各异,适用于表格检测和将表格分类为5种不同类型。数据集的创建旨在通过深度学习方法解决表格检测和结构识别的问题,特别是在文档分析领域。TNCR数据集的应用领域包括自动从表格中提取信息,这对于银行业和保险业等依赖大量文档的行业尤为重要。
The TNCR dataset was created by the Department of Machine Learning and Data Science at Satbayev University, focusing on table detection and classification. This dataset comprises 9428 images sourced from free websites, with varying image qualities, and is applicable to table detection tasks and classifying tables into 5 distinct categories. The development of the TNCR dataset aims to address the challenges of table detection and structural recognition via deep learning methods, particularly in the field of document analysis. Application scenarios of the TNCR dataset include automated information extraction from tables, which is particularly critical for industries that rely on large volumes of documents such as banking and insurance.
提供机构:
机器学习与数据科学系, 萨特巴耶夫大学, 阿拉木图, 050013, 哈萨克斯坦 国家开放研究实验室信息与空间技术, 萨特巴耶夫大学, 阿拉木图, 050013, 哈萨克斯坦
创建时间:
2021-06-19
搜集汇总
背景与挑战
背景概述
TNCR是一个用于表格检测和分类的数据集,包含9428个标记表格和约6621张图像,图像质量多样,来自开放访问网站。该数据集支持将表格分类为5种不同类型,并提供了深度学习方法的基准性能,其中Deformable DERT模型在检测和分类任务中表现最佳,精确率达到86.7%。
以上内容由遇见数据集搜集并总结生成



