five

Nalandadata/DrishtiTable

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Nalandadata/DrishtiTable
下载链接
链接失效反馈
官方服务:
资源简介:
DrishtiTable是一个专门用于表格结构识别(TSR)任务的基准数据集,包含来自印度学术教科书的表格图像及其高质量的HTML结构注释。该数据集由S. Chand Publications出版的教科书中的表格组成,旨在评估模型在特定领域教育内容上的表格结构识别能力。样本发布包含20个表格(10个训练,5个验证,5个测试),完整数据集包含1,421个表格,涵盖6个不同学科的9本教科书。每个样本包括表格图像、HTML注释和元数据。数据集还提供了基准测试结果、统计信息、数据格式和文件结构等详细信息。

DrishtiTable is a curated dataset of table images with high-quality HTML structure annotations from Indian academic textbooks published by S. Chand Publications. It serves as a benchmark for evaluating Table Structure Recognition (TSR) models on domain-specific educational content. The sample release contains 20 representative tables (10 train / 5 val / 5 test), while the full dataset contains 1,421 tables spanning 9 Indian academic textbooks across 6 subjects. Each sample consists of a table image, HTML annotation, and metadata. The dataset also includes benchmark results, statistics, data format, and file structure details.
提供机构:
Nalandadata
搜集汇总
数据集介绍
main_image_url
构建方式
DrishtiTable是一个专注于印度学术教科书领域表格结构识别的基准数据集。其构建过程从S. Chand出版社出版的九本涵盖金融会计、商业统计等六大学科的教科书中系统采集了1421张表格图像。每张图像均经过精细裁剪,并由领域专家以HTML格式标注完整的表格结构,包含thead、tbody、th、td等语义标签,同时辅以JSON元数据记录表格属性。当前公开的样本版本包含20张代表性表格,按10/5/5比例划分为训练、验证与测试集,确保在有限样本下仍能评估模型性能。
使用方法
使用DrishtiTable时,研究者可首先从HuggingFace页面下载公开的样本数据集,其文件结构清晰划分images、annotations及metadata三个目录,并配备train.csv、val.csv与test.csv索引文件。加载图像与对应的HTML标注后,可使用Qwen2.5-VL-7B等视觉语言模型进行零样本或少样本推理,或利用完整数据集对模型进行监督微调。页面还提供了基于Qwen2.5-VL-7B微调而得的专用模型和在线演示空间,方便用户直接上传表格图像并获取结构化HTML输出,快速验证模型效果。
背景与挑战
背景概述
在文档智能与表格结构识别(TSR)领域,现有基准数据集多聚焦于英文通用文档或金融表格,缺乏针对区域语言、学科多样性及教育场景的专门化资源。DrishtiTable数据集于2026年由Nalanda Data团队创建,旨在填补这一空白,聚焦于印度学术教科书中的表格识别。该数据集涵盖6门学科、9本教科书,包含1,421张高质量表格图像及精细的HTML结构标注,并提供了基于Qwen2.5-VL-7B的微调基线,在TEDS指标上以83.2%超越GPT-4o的71.1%。其发布为评估TSR模型在领域特定、排版复杂、多语言教育内容上的泛化能力树立了重要标杆。
当前挑战
数据集所解决的领域挑战在于:现有模型在应对非英文、多层级表头(占15.4%)、合并单元格(14.1%)及空单元格(23.9%)等复杂结构时性能显著下降,DrishtiTable为此类真实教育场景提供了针对性评测。构建过程中的挑战包括:从扫描版教材中精准裁剪表格区域,处理粗细不一、图文混排的页面布局;为跨学科、跨出版社的表格统一生成无歧义的HTML标注规范,尤其是对财务统计中频繁出现的多级嵌套表头进行语义化编码;此外,在有限样本(仅1,141训练图)条件下,需平衡标注效率与结构复杂度,确保微调模型仍具备超越大模型的鲁棒性。
常用场景
经典使用场景
DrishtiTable数据集专为表格结构识别(Table Structure Recognition, TSR)任务而设计,核心用途在于评估和提升模型从文档图像中提取并重建表格HTML结构的能力。该数据集聚焦于印度学术教科书中的复杂表格,包含合并单元格、多层次表头、空单元格及加粗文本等多样化特征,为研究者提供了高度专业化的训练与测试基准。其标准的图像-HTML标注对格式,使得模型能够学习从视觉布局到语义结构的精准映射,尤其适用于在领域特定、排版多变的教材场景中检验TSR系统的鲁棒性与泛化性能。
解决学术问题
在学术研究中,DrishtiTable着力解决了通用表格数据集在印度教材领域适配性不足的难题。现有数据集多源自英文文档或简约表格,难以覆盖南亚学术文本中常见的嵌套表头、不规则单元格合并等复杂结构。该数据集的发布,填补了教育文档自动化理解领域的关键空白,使研究者能够量化评估并改进模型在非英文、高复杂度表格上的表现。通过提供SFT微调基准,它推动了从零样本推理到高效参数优化的范式转变,有效提升了小样本场景下的识别精度,为多语言、多学科文档智能化奠定了实证基础。
实际应用
在实际应用中,DrishtiTable支撑着教育出版业和数字化学习平台的自动化文档解析流程。出版社可借助基于该数据集训练的模型,将传统纸质教材中的统计表格、财务数据及工程参数表高效转换为机器可读的HTML格式,大幅降低人工标注成本。在线教育系统能通过实时表格识别,为视障学生提供结构化语音导航,或为自适应学习平台动态抽取考点数据。此外,在金融报告分析与科研论文元数据提取等知识密集型场景中,DrishtiTable赋能的TSR技术同样展现出显著的实用价值。
数据集最近研究
最新研究方向
当前,DrishtiTable数据集聚焦于教育领域表格结构识别的细粒度优化,特别是针对印度学术教科书这一高度结构化、多学科交织的文档场景。前沿研究围绕基于视觉-语言模型(VLM)的监督微调展开,如DrishtiTable-Qwen2.5-VL-7B以仅1141个训练样本实现超越GPT-4o的S-TEDS指标,揭示了小样本领域适配的潜力。该工作与数字教育资源的智能化转型紧密相连,热点事件包括OCR技术在教育公平性中的深化应用,以及零样本大模型与轻量微调模型在学术文档理解上的性能对比。其意义在于为低资源语言和复杂表格结构(如合并单元格、多级层次)的识别确立了可复现的基准,推动了文档智能从通用模型向领域专用模型的范式迁移。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作