Nalandadata/DrishtiTable

Name: Nalandadata/DrishtiTable
Creator: Nalandadata
Published: 2026-04-25 11:59:39
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Nalandadata/DrishtiTable

下载链接

链接失效反馈

官方服务：

资源简介：

DrishtiTable是一个专门用于表格结构识别（TSR）任务的基准数据集，包含来自印度学术教科书的表格图像及其高质量的HTML结构注释。该数据集由S. Chand Publications出版的教科书中的表格组成，旨在评估模型在特定领域教育内容上的表格结构识别能力。样本发布包含20个表格（10个训练，5个验证，5个测试），完整数据集包含1,421个表格，涵盖6个不同学科的9本教科书。每个样本包括表格图像、HTML注释和元数据。数据集还提供了基准测试结果、统计信息、数据格式和文件结构等详细信息。

DrishtiTable is a curated dataset of table images with high-quality HTML structure annotations from Indian academic textbooks published by S. Chand Publications. It serves as a benchmark for evaluating Table Structure Recognition (TSR) models on domain-specific educational content. The sample release contains 20 representative tables (10 train / 5 val / 5 test), while the full dataset contains 1,421 tables spanning 9 Indian academic textbooks across 6 subjects. Each sample consists of a table image, HTML annotation, and metadata. The dataset also includes benchmark results, statistics, data format, and file structure details.

提供机构：

Nalandadata

搜集汇总

数据集介绍

构建方式

DrishtiTable是一个专注于印度学术教科书领域表格结构识别的基准数据集。其构建过程从S. Chand出版社出版的九本涵盖金融会计、商业统计等六大学科的教科书中系统采集了1421张表格图像。每张图像均经过精细裁剪，并由领域专家以HTML格式标注完整的表格结构，包含thead、tbody、th、td等语义标签，同时辅以JSON元数据记录表格属性。当前公开的样本版本包含20张代表性表格，按10/5/5比例划分为训练、验证与测试集，确保在有限样本下仍能评估模型性能。

使用方法

使用DrishtiTable时，研究者可首先从HuggingFace页面下载公开的样本数据集，其文件结构清晰划分images、annotations及metadata三个目录，并配备train.csv、val.csv与test.csv索引文件。加载图像与对应的HTML标注后，可使用Qwen2.5-VL-7B等视觉语言模型进行零样本或少样本推理，或利用完整数据集对模型进行监督微调。页面还提供了基于Qwen2.5-VL-7B微调而得的专用模型和在线演示空间，方便用户直接上传表格图像并获取结构化HTML输出，快速验证模型效果。

背景与挑战

背景概述

在文档智能与表格结构识别（TSR）领域，现有基准数据集多聚焦于英文通用文档或金融表格，缺乏针对区域语言、学科多样性及教育场景的专门化资源。DrishtiTable数据集于2026年由Nalanda Data团队创建，旨在填补这一空白，聚焦于印度学术教科书中的表格识别。该数据集涵盖6门学科、9本教科书，包含1,421张高质量表格图像及精细的HTML结构标注，并提供了基于Qwen2.5-VL-7B的微调基线，在TEDS指标上以83.2%超越GPT-4o的71.1%。其发布为评估TSR模型在领域特定、排版复杂、多语言教育内容上的泛化能力树立了重要标杆。

当前挑战

数据集所解决的领域挑战在于：现有模型在应对非英文、多层级表头（占15.4%）、合并单元格（14.1%）及空单元格（23.9%）等复杂结构时性能显著下降，DrishtiTable为此类真实教育场景提供了针对性评测。构建过程中的挑战包括：从扫描版教材中精准裁剪表格区域，处理粗细不一、图文混排的页面布局；为跨学科、跨出版社的表格统一生成无歧义的HTML标注规范，尤其是对财务统计中频繁出现的多级嵌套表头进行语义化编码；此外，在有限样本（仅1,141训练图）条件下，需平衡标注效率与结构复杂度，确保微调模型仍具备超越大模型的鲁棒性。

常用场景

经典使用场景

DrishtiTable数据集专为表格结构识别（Table Structure Recognition, TSR）任务而设计，核心用途在于评估和提升模型从文档图像中提取并重建表格HTML结构的能力。该数据集聚焦于印度学术教科书中的复杂表格，包含合并单元格、多层次表头、空单元格及加粗文本等多样化特征，为研究者提供了高度专业化的训练与测试基准。其标准的图像-HTML标注对格式，使得模型能够学习从视觉布局到语义结构的精准映射，尤其适用于在领域特定、排版多变的教材场景中检验TSR系统的鲁棒性与泛化性能。

解决学术问题

在学术研究中，DrishtiTable着力解决了通用表格数据集在印度教材领域适配性不足的难题。现有数据集多源自英文文档或简约表格，难以覆盖南亚学术文本中常见的嵌套表头、不规则单元格合并等复杂结构。该数据集的发布，填补了教育文档自动化理解领域的关键空白，使研究者能够量化评估并改进模型在非英文、高复杂度表格上的表现。通过提供SFT微调基准，它推动了从零样本推理到高效参数优化的范式转变，有效提升了小样本场景下的识别精度，为多语言、多学科文档智能化奠定了实证基础。

实际应用

在实际应用中，DrishtiTable支撑着教育出版业和数字化学习平台的自动化文档解析流程。出版社可借助基于该数据集训练的模型，将传统纸质教材中的统计表格、财务数据及工程参数表高效转换为机器可读的HTML格式，大幅降低人工标注成本。在线教育系统能通过实时表格识别，为视障学生提供结构化语音导航，或为自适应学习平台动态抽取考点数据。此外，在金融报告分析与科研论文元数据提取等知识密集型场景中，DrishtiTable赋能的TSR技术同样展现出显著的实用价值。

数据集最近研究