SWHL/table_rec_test_dataset

Name: SWHL/table_rec_test_dataset
Creator: SWHL
Published: 2024-04-12 06:42:43
License: 暂无描述

Hugging Face2024-04-12 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/SWHL/table_rec_test_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - translation language: - zh - en tags: - code size_categories: - n<1K --- ## 表格识别测试集 ### 数据集简介 - 数据集包括18张表格的图像，包括拍照类型、截图类型的有线和无线表格。 - 该数据集可以结合[表格指标评测库-TableRecognitionMetric](https://github.com/SWHL/TableRecognitionMetric)使用，快速评测各种表格还原算法。 - **关于该数据集，欢迎小伙伴贡献更多数据呦！有任何想法，可以前往[issue](https://github.com/SWHL/TableRecognitionMetric/issues)讨论。** ### 数据集支持的任务可用于自定义数据集下的模型验证和性能评估等。 ### 数据集的格式和结构 #### 数据格式数据集只有测试集，仅用于客观评估算法表现。 ```text data └── test ├── 000cce9ca593055d4618466e823e6d7c.jpg ├── 0aNtiNtRRLqEZ9y6PuShtAAAACMAAQED.jpg ├── 116d6b07ecfdae7721bd6bbf31031c1a.jpg ├── 18bc90cb646c109d22ba44565b9a58bc3095e6d3.jpg ├── 1e7d7fed671a9f9043edd57874ef1b13587afa8d.jpg ├── 20200211182342519549-0.jpg ├── 6a8f24150a396470ab29a5ff29aa959dfe7f1c57.jpg ├── Snipaste_2023-07-05_14-54-25.jpg ├── Snipaste_2023-07-05_14-54-58.jpg ├── Snipaste_2023-07-05_14-58-59.jpg ├── Snipaste_2023-07-05_15-00-55.jpg ├── metadata.jsonl ├── row_span.jpg ├── table2.jpg ├── table3.jpg ├── table4.jpg ├── table6.jpg ├── table7.jpg └── table_recognition.jpg ``` #### 数据集加载方式 ```python from datasets import load_dataset dataset = load_dataset("SWHL/table_rec_test_dataset") test_data = dataset['test'] print(test_data) ``` ### 数据集生成的相关信息 #### 原始数据数据来源于网络，如侵删。 #### 数据集标注数据集标注为html格式，示例如下： ```text <html><body><table><tr><td colspan="2">Textln让机器像人类一样理解文字</td></tr><tr><td>Textln产品</td><td>产品描述</td></tr><tr><td>TextinServerAPI文字识别产品</td><td>通用文本识别、表格识别、卡证识别、票据识别、定制识别等识别产品</td></tr><tr><td>TextinMobileSDK图像处理与文字识别SDK</td><td>图像处理，文本、卡证、票据识别和信息提取移动端SDK</td></tr><tr><td>TextlnStudio文字识别训练平台</td><td>OCR自定义模版配置和机器学习训练平台</td></tr><tr><td>Textin企业A/管理平台</td><td>企业AI接入监控统计和渠道业务管理平台</td></tr><tr><td>Textin财报机器人</td><td>财务报表智能分类、识别、提取、匹配、试算产品</td></tr><tr><td>Textin合同比对机器人</td><td>合同多版本差异智能比对产品</td></tr><tr><td>Textin解决方案</td><td>结合客户业务场景和TextIn能力的场景解决方案</td></tr></table></body></html> ```

许可证：Apache-2.0 任务类别：翻译语言：中文、英文标签：代码数据规模：样本量少于1000 ## 表格识别测试集 ### 数据集简介 - 本数据集包含18张表格图像，涵盖拍摄获取与截图获取的有线表格与无线表格。 - 本数据集可配合[表格指标评测库-TableRecognitionMetric](https://github.com/SWHL/TableRecognitionMetric)使用，用于快速评估各类表格还原算法的性能。 - **欢迎各位同仁为本数据集贡献更多数据！如有任何建议或想法，可前往[issue](https://github.com/SWHL/TableRecognitionMetric/issues)进行讨论。** ### 数据集支持的任务可用于自定义数据集场景下的模型验证与性能评估等任务。 ### 数据集的格式和结构 #### 数据格式本数据集仅包含测试集，仅用于客观评估算法性能。 text data └── test ├── 000cce9ca593055d4618466e823e6d7c.jpg ├── 0aNtiNtRRLqEZ9y6PuShtAAAACMAAQED.jpg ├── 116d6b07ecfdae7721bd6bbf31031c1a.jpg ├── 18bc90cb646c109d22ba44565b9a58bc3095e6d7c.jpg ├── 1e7d7fed671a9f9043edd57874ef1b13587afa8d.jpg ├── 20200211182342519549-0.jpg ├── 6a8f24150a396470ab29a5ff29aa959dfe7f1c57.jpg ├── Snipaste_2023-07-05_14-54-25.jpg ├── Snipaste_2023-07-05_14-54-58.jpg ├── Snipaste_2023-07-05_14-58-59.jpg ├── Snipaste_2023-07-05_15-00-55.jpg ├── metadata.jsonl ├── row_span.jpg ├── table2.jpg ├── table3.jpg ├── table4.jpg ├── table6.jpg ├── table7.jpg └── table_recognition.jpg #### 数据集加载方式 python from datasets import load_dataset dataset = load_dataset("SWHL/table_rec_test_dataset") test_data = dataset['test'] print(test_data) ### 数据集生成的相关信息 #### 原始数据本数据集数据来源于网络，若涉及侵权请联系我们删除。 #### 数据集标注本数据集的标注采用HTML格式，示例如下： text <html><body><table><tr><td colspan="2">Textln让机器像人类一样理解文字</td></tr><tr><td>Textln产品</td><td>产品描述</td></tr><tr><td>TextinServerAPI文字识别产品</td><td>通用文本识别、表格识别、卡证识别、票据识别、定制识别等识别产品</td></tr><tr><td>TextinMobileSDK图像处理与文字识别SDK</td><td>图像处理，文本、卡证、票据识别和信息提取移动端SDK</td></tr><tr><td>TextlnStudio文字识别训练平台</td><td>光学字符识别（Optical Character Recognition，简称OCR）自定义模板配置和机器学习训练平台</td></tr><tr><td>Textin企业A/管理平台</td><td>企业AI接入监控统计和渠道业务管理平台</td></tr><tr><td>Textin财报机器人</td><td>财务报表智能分类、识别、提取、匹配、试算产品</td></tr><tr><td>Textin合同比对机器人</td><td>合同多版本差异智能比对产品</td></tr><tr><td>Textin解决方案</td><td>结合客户业务场景和TextIn能力的场景解决方案</td></tr></table></body></html>

提供机构：

SWHL

原始信息汇总

数据集概述

数据集基本信息

许可证: Apache-2.0
任务类别: 翻译
语言: 中文、英文
标签: 代码
数据集大小: 小于1K

数据集简介

包含18张表格图像，涵盖拍照类型和截图类型的有线和无线表格。
可与表格指标评测库-TableRecognitionMetric结合使用，用于快速评测表格还原算法。

数据集支持的任务

用于自定义数据集下的模型验证和性能评估。

数据集的格式和结构

数据格式: 仅包含测试集，用于客观评估算法表现。
数据结构: 数据集目录结构如下： text data └── test ├── 000cce9ca593055d4618466e823e6d7c.jpg ├── 0aNtiNtRRLqEZ9y6PuShtAAAACMAAQED.jpg ├── 116d6b07ecfdae7721bd6bbf31031c1a.jpg ├── 18bc90cb646c109d22ba44565b9a58bc3095e6d3.jpg ├── 1e7d7fed671a9f9043edd57874ef1b13587afa8d.jpg ├── 20200211182342519549-0.jpg ├── 6a8f24150a396470ab29a5ff29aa959dfe7f1c57.jpg ├── Snipaste_2023-07-05_14-54-25.jpg ├── Snipaste_2023-07-05_14-54-58.jpg ├── Snipaste_2023-07-05_14-58-59.jpg ├── Snipaste_2023-07-05_15-00-55.jpg ├── metadata.jsonl ├── row_span.jpg ├── table2.jpg ├── table3.jpg ├── table4.jpg ├── table6.jpg ├── table7.jpg └── table_recognition.jpg

数据集加载方式

python from datasets import load_dataset

dataset = load_dataset("SWHL/table_rec_test_dataset")

test_data = dataset[test] print(test_data)

数据集生成的相关信息

原始数据: 来源于网络，如侵删。
数据集标注: 标注为HTML格式，用于描述表格内容。

搜集汇总

数据集介绍

构建方式

在表格识别领域，构建高质量的测试集对于算法性能的客观评估至关重要。该数据集通过整合多源数据构建而成，涵盖了百度生成工具产生的有线与无线表格图像、WTW数据集样本、PubNet验证集图像以及自主零散标注的图像，总计93张表格图片。这些图像广泛覆盖了多种实际应用场景，包括不同的光照条件和图像分辨率，确保了数据集的多样性和代表性，为表格还原算法的稳健性测试提供了坚实基础。

使用方法

该数据集主要用于表格识别算法的性能评估与验证。研究人员或开发者可通过Hugging Face的`datasets`库直接加载数据集，便捷地访问测试集中的图像与对应的HTML标注。结合配套的TableRecognitionMetric评测库，用户可以系统性地量化算法在表格结构还原、内容识别等方面的准确率与效率。数据集提供的HTML标注可直接用于可视化或作为评估基准，支持快速迭代和比较不同算法的优劣，从而推动表格识别技术的进步。

背景与挑战

背景概述

表格识别作为文档智能领域的关键分支，旨在将图像中的表格结构及内容转化为机器可读的格式，如HTML或JSON，以支持信息检索与数据分析。SWHL/table_rec_test_dataset由开发者SWHL于近年构建，汇集了来自百度生成工具、WTW数据集、PubNet验证集及自主标注的93张表格图像，覆盖有线、无线及无边框等多种样式，并囊括了不同光照与分辨率条件。该数据集专为评估表格还原算法的性能而设计，与开源评测库TableRecognitionMetric协同使用，为研究社区提供了标准化的测试基准，推动了表格识别技术在实际场景中的鲁棒性提升与应用拓展。

当前挑战

表格识别领域面临的核心挑战在于准确解析复杂表格结构，如合并单元格、嵌套行列及不规则布局，同时需克服图像质量变异、光照不均及低分辨率带来的干扰。在数据集构建过程中，挑战主要体现在数据收集与标注的复杂性：需整合多源异构图像，确保场景多样性；标注工作依赖人工将视觉表格转换为精确的HTML格式，耗时费力且易出错；此外，数据规模较小，仅93张图像，可能限制模型泛化能力的全面评估，需持续扩充以覆盖更广泛的真实应用情形。

常用场景

经典使用场景

在文档智能与计算机视觉领域，表格识别测试集SWHL/table_rec_test_dataset为算法性能评估提供了标准化基准。该数据集汇集了93张涵盖有线、无线及不同光照与分辨率场景的表格图像，其经典应用在于结合TableRecognitionMetric评测库，系统性地验证表格还原算法的鲁棒性与准确性。通过模拟现实世界中表格结构的多样性，该数据集能够客观衡量算法在复杂布局、边界缺失等挑战下的表现，为研究者提供可靠的横向比较依据。

解决学术问题

该数据集针对表格识别研究中的关键学术问题提供了解决方案。传统表格识别算法常受限于有限的数据多样性，难以泛化至不同样式与质量的图像。SWHL/table_rec_test_dataset通过整合多源数据，解决了算法在跨场景适应性评估上的空白，助力研究者深入探究结构解析、文本检测与单元格关联等核心难题。其意义在于推动了文档理解领域评估范式的标准化，为算法优化与理论创新奠定了实证基础。

实际应用

在实际应用层面，该数据集支撑了办公自动化与数字化管理系统的开发。表格识别技术广泛应用于财务报表解析、合同信息提取与学术文献处理等场景，而本数据集通过提供贴近真实环境的测试样本，能够有效验证算法在业务系统中的稳定性。例如，在金融与法律行业，高精度的表格还原可提升数据录入效率并降低人工错误，该数据集的评估功能为技术落地提供了关键的质量保障。

数据集最近研究