TID, VATID
收藏github2023-11-14 更新2024-05-31 收录
下载链接:
https://github.com/FuxiJia/InvoiceDatasets
下载链接
链接失效反馈官方服务:
资源简介:
目前没有公开的相机捕获发票图像数据集。为了比较不同的文本检测和关键字定位算法,我们收集了两个包含中国不同省份的出租车和增值税发票的数据集,现公开可用。一个称为出租车发票数据集(简称TID),包含104和140类关键字和字符。请注意,出租车发票的关键字在不同省份之间差异很大,我们收集了来自25个不同省份的样本。另一个称为增值税发票数据集(简称VATID),包含24和57类关键字和字符。对于这两个数据集,我们随机选择了50%的图像作为训练集,其余的分配给测试集。
Currently, there is no publicly available dataset of camera-captured invoice images. To compare different text detection and keyword localization algorithms, we have collected two datasets containing taxi and value-added tax (VAT) invoices from various provinces in China, which are now publicly available. One is called the Taxi Invoice Dataset (TID), which includes 104 and 140 categories of keywords and characters. It is important to note that the keywords on taxi invoices vary significantly across different provinces, and we have collected samples from 25 different provinces. The other dataset is called the Value-Added Tax Invoice Dataset (VATID), which includes 24 and 57 categories of keywords and characters. For both datasets, we randomly selected 50% of the images for the training set, with the remainder allocated to the test set.
创建时间:
2018-06-08
原始信息汇总
数据集概述
数据集名称与类型
- Taxi Invoice Dataset (TID): 包含104和140类别的关键词和字符。
- Value Added Tax Invoice Dataset (VATID): 包含24和57类别的关键词和字符。
数据集内容
- TID: 收集自中国25个不同省份的出租车发票图像,关键词和字符类别因省份而异。
- VATID: 收集自中国不同省份的增值税发票图像。
数据集用途
- 用于比较不同的文本检测和关键词定位算法。
数据集划分
- 随机选取50%的图像作为训练集,剩余50%作为测试集。
搜集汇总
数据集介绍

构建方式
TID和VATID数据集的构建旨在填补相机拍摄发票图像领域的空白,为文本检测和关键词识别算法的比较提供基础。数据集通过收集中国不同省份的出租车发票和增值税发票图像,分别构建了TID和VATID两个子集。TID涵盖了25个省份的104至140类关键词和字符,而VATID则包含24至57类关键词和字符。为确保数据的多样性和代表性,数据集中的图像被随机划分为训练集和测试集,各占50%。
特点
TID和VATID数据集的特点在于其广泛的覆盖范围和多样性。TID数据集涵盖了25个省份的出租车发票,反映了不同地区的发票格式和关键词差异;VATID数据集则专注于增值税发票,提供了更为标准化的关键词和字符类别。两个数据集均包含高分辨率的相机拍摄图像,模拟了真实场景下的图像采集条件,为算法研究提供了高质量的实验数据。
使用方法
TID和VATID数据集的使用方法主要围绕文本检测和关键词识别算法的训练与评估展开。研究人员可将训练集用于模型训练,测试集用于验证模型的泛化能力。由于数据集涵盖了不同省份和发票类型,用户可通过调整模型参数或设计新的算法,以应对不同场景下的文本识别挑战。此外,数据集还可用于跨领域研究,如发票信息的自动化提取与分类。
背景与挑战
背景概述
TID和VATID数据集是针对相机拍摄的发票图像进行关键词识别而创建的两个公开数据集。在发票图像处理领域,尤其是针对出租车发票和增值税发票的关键词识别,此前缺乏公开的基准数据集。为了促进不同文本检测和关键词识别算法的比较研究,研究团队收集了来自中国不同省份的出租车发票和增值税发票图像,并构建了这两个数据集。TID数据集包含104类和140类关键词及字符,覆盖了25个省份的样本;VATID数据集则包含24类和57类关键词及字符。这些数据集的创建为发票图像处理领域的研究提供了重要的数据支持,推动了相关算法的发展。
当前挑战
TID和VATID数据集的构建面临多重挑战。首先,发票图像的关键词识别本身具有较高的复杂性,尤其是出租车发票的关键词在不同省份之间存在显著差异,这要求数据集在样本多样性上具有广泛的覆盖性。其次,相机拍摄的发票图像通常存在光照不均、角度倾斜、背景干扰等问题,这对数据预处理和模型鲁棒性提出了更高要求。此外,数据集的标注工作需要极高的准确性,以确保关键词和字符的识别结果能够为算法提供可靠的训练和测试基准。这些挑战不仅体现在数据集的构建过程中,也反映了发票图像处理领域在实际应用中的技术难点。
常用场景
经典使用场景
在光学字符识别(OCR)和关键词识别(KWS)领域,TID和VATID数据集为研究者提供了一个标准化的测试平台,用于评估和比较不同算法在复杂背景下的性能。这些数据集特别适用于处理来自不同省份的出租车发票和增值税发票,其中包含了多样化的关键词和字符类别。
解决学术问题
TID和VATID数据集解决了在自然场景下,尤其是从不同角度和光照条件下拍摄的发票图像中,文本检测和关键词识别算法的性能评估问题。这些数据集通过提供大量多样化的样本,帮助研究者开发出更为鲁棒的算法,以应对实际应用中的各种挑战。
衍生相关工作
基于TID和VATID数据集,研究者已经开发出多种先进的OCR和KWS算法。这些算法不仅在学术界得到了广泛认可,还被集成到商业软件中,用于提高发票处理的自动化水平。此外,这些数据集也促进了跨领域的研究,如结合深度学习和传统图像处理技术,进一步推动了相关技术的发展。
以上内容由遇见数据集搜集并总结生成



