DHRISHTIKON

Name: DHRISHTIKON
Creator: 印度理工学院孟买分校计算机科学与工程系
Published: 2025-06-26 22:32:23
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://github.com/kasuba-badri-vishal/DhrishtiKon

下载链接

链接失效反馈

官方服务：

资源简介：

DHRISHTIKON是一个多粒度视觉定位框架，旨在增强对复杂、多语言文档的可解释性和可信度。该数据集包含从CircularsVQA测试集中精选的70张文档图像，以及509个问答对，涵盖了多个粒度级别的详细注释。数据集内容丰富，包括块级、行级、词级和点级数据，旨在评估细粒度的空间语义推理。数据集由人工标注，而非通过合成数据生成策略，从而保证了数据的质量和准确性。

DHRISHTIKON is a multi-granularity visual localization framework designed to enhance the interpretability and trustworthiness of complex, multilingual documents. This dataset includes 70 document images selected from the CircularsVQA test set, as well as 509 question-answer pairs covering detailed annotations across multiple granularity levels. Featuring rich content, the dataset encompasses block-level, line-level, word-level and point-level data, aiming to evaluate fine-grained spatial semantic reasoning. The dataset is manually annotated rather than generated via synthetic data generation strategies, thereby ensuring the quality and accuracy of the data.

提供机构：

印度理工学院孟买分校计算机科学与工程系

创建时间：

2025-06-26

原始信息汇总

DrishtiKon数据集概述

数据集简介

数据集名称：DrishtiKon Grounding Demo
类型：视觉定位与文档理解应用数据集
应用场景：政府监管文档的视觉问答(VQA)与定位

核心功能

视觉定位与文档理解
- 支持图像/PDF上传
- 提供多级视觉定位（区块/行/词/点级别）
工程解决方案
- OCR文本提取（使用DocTR模型）
- 基于文本匹配的问答对定位策略

技术实现

文本匹配策略

功能模块：get_matched_regions()
匹配维度：
- 答案匹配度（权重0.8）
- 问题关联度（权重0.2）
关键参数：
- 匹配阈值CUT_OFF_THRESHOLD=70
- 最大返回结果MAX_MATCHES=5

细粒度定位

词级定位：get_word_level_matches()
支持连续词序列检测
依赖OCR输出的词级边界框数据

视觉定位能力

支持级别
- 词级定位
- 行级定位
- 多行文本定位
技术挑战
- 多行定位与精度权衡问题
- 待优化项标注在TODO中

辅助工具

标注工具路径：annotation/
支持标注类型：区块/行/词/点级别边界框

搜集汇总

数据集介绍

构建方式

DHRISHTIKON数据集的构建基于多语言文本丰富的文档图像，通过精心设计的流程实现。首先从印度政府通告中选取70份具有复杂布局和多语言文本的文档图像作为基础数据。随后，开发了专用的标注工具，支持在块、行、词和点四个粒度级别进行人工标注，共标注了509个问答对。标注过程严格遵循视觉接地的要求，确保每个答案都能精确对应到文档中的特定区域。这种多粒度的标注策略为研究不同层次的视觉接地任务提供了丰富的数据支持。

使用方法

使用DHRISHTIKON数据集时，研究者可以根据具体任务需求选择不同的粒度级别进行评估。对于视觉问答任务，建议先利用提供的多语言OCR系统处理图像，获取文本内容和空间位置信息。然后将问题与OCR输出一起输入语言模型获取预测答案，最后通过区域匹配算法在指定粒度级别定位答案区域。评估时可采用精确率、召回率和F1值等指标，重点关注不同粒度下的性能差异。数据集特别适合用于研究多块多行推理、跨粒度视觉接地等前沿问题。

背景与挑战

背景概述

DHRISHTIKON数据集由印度理工学院孟买分校的Badri Vishal Kasuba等人于2025年提出，旨在解决文本密集型文档图像中的多粒度视觉定位问题。该数据集基于政府通告图像构建，包含70份多语言文档和509个问答对，标注粒度涵盖区块、行、词和点四个层级。作为视觉问答领域的重要补充，DHRISHTIKON通过整合多语言OCR、大语言模型和创新的区域匹配算法，显著提升了文档理解系统中答案定位的精确性和可解释性。其创新性体现在首次实现了对复杂版式文档的多层级语义-空间联合推理，为政府公文、法律文书等专业场景的智能处理提供了新范式。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，文本密集型文档中答案定位面临多语言混合、版式复杂和语义层级嵌套等难题，传统视觉语言模型在细粒度定位任务中召回率不足35%。在构建过程中，研究者需克服标注一致性难题——不同粒度标注存在级联误差，如区块分割偏差导致行级标注准确率下降12.7%；同时处理多语言OCR的文本对齐问题，特别是梵文等复杂文字系统的识别错误率达18.4%。此外，评估体系设计需平衡不同粒度间的指标冲突，行级定位虽取得69.1%的F1值，但点级定位因OCR噪声导致召回率骤降至51.3%。

常用场景

经典使用场景

在文档智能和视觉问答系统领域，DHRISHTIKON数据集被广泛应用于多粒度视觉定位任务。该数据集特别适用于处理复杂、多语言的文本密集型文档图像，如政府通告或备忘录。研究人员利用其提供的块级、行级、词级和点级标注，开发能够精确定位文本区域并回答自然语言查询的算法。数据集的多粒度特性使其成为评估模型在不同层次上理解文档结构和内容的理想基准。

解决学术问题

DHRISHTIKON有效解决了文本密集型文档图像中视觉定位的若干关键问题。其创新的区域匹配算法显著提升了答案定位的准确性，弥补了现有视觉语言模型在精确空间推理方面的不足。数据集提供的多层次标注支持了从宏观语义块到微观词汇的全面研究，为文档理解系统建立了可解释性框架。通过消融实验验证的多块多行推理机制，为复杂文档布局下的信息提取提供了方法论指导。

实际应用

该数据集在政务文档处理、金融票据分析和教育资料检索等场景展现出重要价值。政府部门可利用其构建自动化通告解析系统，快速定位政策条款；金融机构能基于多语言OCR和视觉定位技术，实现合同关键条款的智能提取；教育机构则可通过集成该框架，开发支持多粒度标注的数字化教材分析工具。实际部署表明，行级粒度在保持精度与召回平衡方面表现最优。

数据集最近研究