大藏经切字数据包

github2023-11-10 更新2024-05-31 收录

下载链接：

https://github.com/CoinLQ/TripitakaCharacterDataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是从大藏经经文图片中切分出的单个字的图片数据，每个月更新一个数据版本。数据集包含字图片的打包文件和字信息数据库表，详细记录了每个字的实际汉字、图片文件名称、所在页面ID以及字图片在经文图片中的坐标等信息。

This dataset consists of individual character images segmented from the Tripitaka scripture images, with a new version updated monthly. The dataset includes packaged files of character images and a database table containing detailed information about each character, such as the actual Chinese character, image file name, page ID, and the coordinates of the character image within the scripture image.

创建时间：

2016-08-04

原始信息汇总

大藏经切字数据包概述

数据集版本与更新

当前版本：1.4版
最新更新日期：11月29号

数据来源

数据来源：高丽藏

数据集内容

字信息数据库表

文件名：segmentation_character.sql.zip
数据库类型：PostgreSQL
字段说明：
- char: 实际汉字
- image: 字图片文件名称
- page_id: 字所在页面的ID
- left, right, top, bottom: 切分的字图片在经文图片中的坐标
- is_correct: 人工标注的字图片与字是否对应正确，1表示正确，-1表示不正确，0表示未标注
- is_dirty: 数据质量标记，用于前端逻辑区分和标记
- accuracy: 程序标注的字对应的准确度，范围为-1至1000，-1表示未计算，1000表示最准确

字图片打包文件

文件名：x00.tar, x01.tar等
解压方式：一般解压软件
图片路径格式：{page_id}/{image}

数据集统计

统计数据文件：字图片统计数据.txt

OCR识别引擎

初级样本训练

样本组成：每个汉字至少50张正确图片和50张错误图片
分类器算法：逻辑回归

高级样本训练

样本组成：利用初级样本训练的分类器挑选更多正确图片，辅助人工抽查
分类器类型：深度学习分类器

搜集汇总

数据集介绍

构建方式

大藏经切字数据包的构建基于高丽藏经文图片的精细切分，通过自动化工具从经文图片中提取单个汉字，并结合人工标注进行数据验证。每个汉字的图片信息包括其在原图中的坐标位置、图片名称及所属页面ID等，均被记录在PostgreSQL数据库中。此外，数据包还包含了由逻辑回归算法生成的准确度评分，该评分基于人工标注的正确与错误样本进行训练，以确保数据的准确性和可靠性。

特点

该数据集的特点在于其高精度的汉字切分和丰富的元数据信息。每个汉字图片不仅包含其在原图中的具体位置，还附有经过人工标注的正确性标识和程序计算的准确度评分。数据集每月更新，确保了数据的时效性和持续改进。此外，数据包中的图片文件以压缩包形式提供，便于用户快速解压和使用。

使用方法

使用大藏经切字数据包时，用户首先需解压提供的字图片压缩包，并导入数据库文件以获取详细的字信息。数据集支持多种应用场景，如OCR识别引擎的训练与测试。用户可利用提供的人工标注样本训练逻辑回归分类器，或基于深度学习算法进一步优化识别效果。数据包中的准确度评分和人工标注信息为模型训练提供了高质量的参考数据。

背景与挑战

背景概述

大藏经切字数据包是一个专注于从大藏经经文图片中提取单个汉字图像的数据集，旨在为古文字识别和光学字符识别（OCR）技术提供高质量的训练数据。该数据集由高丽藏经文图片中切分出的单字图像构成，每月更新一次，当前版本为1.4版。数据集的核心研究问题在于如何通过自动化技术准确识别和分类古代汉字，尤其是大藏经中的复杂字形。这一研究对古籍数字化、文化遗产保护以及汉字识别技术的发展具有重要意义。数据集的主要研究人员或机构未明确提及，但其数据来源和更新频率表明其背后有系统的研究团队支持。

当前挑战

大藏经切字数据包在解决古文字识别问题时面临多重挑战。首先，古代汉字的字形复杂多样，且大藏经中的文字常因年代久远而出现模糊、破损等问题，这为自动化识别带来了极大困难。其次，数据集的构建过程中，人工标注的质量和效率是关键挑战。尽管数据集引入了逻辑回归和深度学习算法来辅助标注，但仍需大量人工干预以确保数据的准确性。此外，数据集中存在部分质量不佳的图片（如is_dirty字段标记的数据），这些数据需要进一步清洗和改进，以提高整体数据质量。最后，如何将传统OCR技术与深度学习相结合，以提升识别精度和泛化能力，也是该数据集未来需要解决的重要问题。

常用场景

经典使用场景

大藏经切字数据包在古籍数字化和文本识别领域具有重要应用。该数据集通过从大藏经经文图片中切分出单个字的图片数据，为研究者提供了丰富的汉字图像资源。这些数据不仅支持汉字识别算法的训练和优化，还为古籍文献的自动化处理提供了基础。特别是在高丽藏等经典文献的数字化过程中，该数据集为高效、准确的文字识别提供了关键支持。

解决学术问题

大藏经切字数据包解决了古籍文献数字化中的核心问题，即如何从复杂的经文图片中准确切分并识别单个汉字。通过提供大量经过人工标注的汉字图像数据，该数据集为汉字识别算法的训练和验证提供了可靠的基础。此外，数据集中的accuracy字段为研究者提供了量化评估汉字识别准确性的工具，进一步推动了古籍文献自动化处理技术的发展。

衍生相关工作

基于大藏经切字数据包，研究者们开发了多种OCR识别引擎，包括基于逻辑回归（LR）和深度学习的分类器。这些引擎通过利用数据集中的标注数据，逐步优化了汉字识别的准确性。此外，该数据集还催生了一系列关于古籍文献数字化的研究，推动了汉字识别算法在古籍文献处理中的应用和发展。

以上内容由遇见数据集搜集并总结生成