five

SciTSR

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/academic-hammer/scitsr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由从科学文献中提取的表格组成,其特点是图像质量相对较高。在评估过程中,使用了完整的测试集。所涉及的任务是表格识别。

This dataset consists of tables extracted from scientific literature, which is characterized by relatively high image quality. A complete test set was used during the evaluation process. The task involved herein is table recognition.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SciTSR是一个包含15,000个PDF表格及其结构标签的大规模表格结构识别数据集,分为12,000个训练样本和3,000个测试样本,特别包含一个复杂表格测试子集SciTSR-COMP。数据集提供了丰富的预处理数据,包括文本块、关系标签和结构标签,适用于表格结构识别任务的研究和开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作