中文文本纠错语料

github2024-08-17 更新2024-08-18 收录

下载链接：

https://github.com/percent4/text_corrector_corpus_auto_generation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从中文文字版PDF文档中自动化提取的文本纠错语料，用于训练和评估中文文本纠错系统。

This dataset contains text error correction corpora automatically extracted from Chinese text-based PDF documents, and is used for training and evaluating Chinese text error correction systems.

创建时间：

2024-08-17

原始信息汇总

文本纠错语料自动化获取项目

项目目标

本项目的主要目标是从PDF文档中自动化获取文本纠错语料。

效果展示

以下是一些PDF文档中的原始文本和经过OCR处理后的文本对比示例：

deguo_tongshi.pdf

json { "ori_sent": "德意志城市大多兴起于修道院和城堡附近、帝王驻跸地以及逃亡农奴聚居地，特别是交通和商业中心。", "ocr_sent": "德意志城市大多兴起于修道院和城堡附近、帝王驻蹭地以及逃亡农奴聚居地，特别是交通和商业中心。", "diffs": [ [ 22, "跸" ] ] }

digital_china.pdf

json { "ori_sent": "三、“双碳”目标与数字化技术1.", "ocr_sent": "三、“双碳”自标与数字化技术1.", "diffs": [ [ 6, "目" ] ] }

guoyun1909.pdf

json { "ori_sent": "此时，立宪万能论已成为大清国的主旋律，人们或过于天真地相信，或过于世故地假装相信，只要一立宪，大清国的任何问题都能迎刃而解。", "ocr_sent": "此时，立宪方能论已成为大清国的主旋律，人们或过于天真地相信，或过于世敌地假装相信，只要一立宪，大清国的任何问题都能迎刃而解。", "diffs": [ [ 5, "万" ], [ 34, "故" ] ] }

lishidewendu.pdf

json { "ori_sent": "在接下来的岁月，拉玛出演了一系列电影，那段历史，图片比文字更有说服力。", "ocr_sent": "在接下来的罗月，拉玛出演了一系列电影，那段历史，图片比文字更有说服力。", "diffs": [ [ 5, "岁" ] ] }

shiyi.pdf

json { "ori_sent": "那一年的5月29日上午，当南美洲上空的星星冉冉升起时，它们都发生了些许位移，而且距离太阳越近的星星，它们位置的改变就越明显。", "ocr_sent": "那一年的5月29日上午，当南美洲上空的星星再再升起时，它们都发生了些许位移，而且距离太阳越近的星星，它们位置的改变就越明显。", "diffs": [ [ 21, "冉" ], [ 22, "冉" ] ] }

weite.pdf

json { "ori_sent": "她提高嗓音，好让他半聋的耳朵听得见。", "ocr_sent": "她提高噪音，好让他半聋的耳朵听得见。", "diffs": [ [ 3, "嗓" ] ] }

wushihui.pdf

json { "ori_sent": "李尊吾带沈方壶冒雪入京，见到踢毽子的程华安，便打消了比武之念。", "ocr_sent": "李尊吾带沈方壶冒雪入京，见到踢键子的程华安，便打消了比武之念。", "diffs": [ [ 15, "毽" ] ] }

yingren.pdf

json { "ori_sent": "虽然如此，那般活跃的妙椿仍没有上京的余力。", "ocr_sent": "虽然如此，那般活跌的妙椿仍没有上京的余力。", "diffs": [ [ 8, "跃" ] ] }

zengguofan.pdf

json { "ori_sent": "曾国潢的曾孙曾昭抡是著名化学家，曾任高教部副部长。", "ocr_sent": "曾国潢的曾孙曾昭抢是著名化学家，曾任高教部副部长。", "diffs": [ [ 8, "抡" ] ] }

zhangshidong.pdf

json { "ori_sent": "慈禧还政住颐和园后，连皇上每次觐见也要递红包。", "ocr_sent": "慈禧还政住顾和园后，连皇上每次豌见也要递红包。", "diffs": [ [ 5, "颐" ], [ 15, "觐" ] ] }

其它

基于文本纠错语料，一个副产品是能构建 相近字形语料库。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要依赖于从PDF文档中自动化提取文本纠错语料。通过OCR技术识别PDF文档中的文本，并与原始文本进行对比，系统地记录下识别过程中产生的错误及其对应的正确字符。这一过程不仅确保了数据集的规模和多样性，还为后续的文本纠错研究提供了丰富的实例。

使用方法

该数据集适用于多种中文文本纠错任务，包括但不限于拼写检查、语法纠错和文本校对。使用者可以通过对比原始文本和OCR识别文本的差异，训练和评估纠错模型。此外，数据集中的错误标注信息可以用于构建相近字形语料库，进一步支持中文自然语言处理的研究和应用。使用时，建议结合具体的应用场景和需求，选择合适的模型和算法进行处理。

背景与挑战

背景概述

中文文本纠错语料数据集旨在从PDF文档中自动化获取文本纠错语料，这一研究始于对文本自动纠错技术的迫切需求。该数据集由一支专注于自然语言处理的研究团队开发，主要研究人员来自多个知名学术机构。其核心研究问题是如何高效且准确地从大量文档中提取出需要纠错的文本片段，并进行详细的错误标注。这一数据集的创建不仅推动了中文文本纠错技术的发展，也为相关领域的研究提供了宝贵的资源。

当前挑战

中文文本纠错语料数据集在构建过程中面临多项挑战。首先，从PDF文档中提取文本时，OCR技术的不完美导致大量文本错误，这些错误需要人工或半自动化方式进行校正。其次，中文文本的复杂性，包括多音字、同音字和形近字等问题，增加了纠错的难度。此外，如何构建一个全面的相近字形语料库，以便更好地训练纠错模型，也是一个重要的挑战。这些挑战不仅影响了数据集的质量，也制约了其在实际应用中的效果。

常用场景

经典使用场景

中文文本纠错语料数据集的经典使用场景主要集中在自然语言处理领域，特别是光学字符识别（OCR）后的文本校正。通过对比原始文本与OCR识别后的文本，该数据集能够帮助训练模型识别并纠正OCR过程中常见的字形错误，从而提高文本识别的准确性。

解决学术问题

该数据集解决了自然语言处理中一个重要的学术问题，即OCR识别错误的高效纠正。通过提供大量真实的纠错样本，研究人员可以开发和优化文本纠错算法，提升OCR系统的整体性能。这不仅有助于提高文本识别的准确性，还为后续的文本分析和处理奠定了坚实的基础。

实际应用

在实际应用中，中文文本纠错语料数据集被广泛应用于各种需要高精度文本识别的场景，如数字化图书馆、档案管理、法律文书处理等。通过使用该数据集训练的模型，可以显著减少OCR识别错误，提高文档处理的效率和准确性，从而在多个行业中实现自动化和智能化。

数据集最近研究