中文文本纠错语料
收藏文本纠错语料自动化获取项目
项目目标
本项目的主要目标是从PDF文档中自动化获取文本纠错语料。
效果展示
以下是一些PDF文档中的原始文本和经过OCR处理后的文本对比示例:
deguo_tongshi.pdf
json { "ori_sent": "德意志城市大多兴起于修道院和城堡附近、帝王驻跸地以及逃亡农奴聚居地,特别是交通和商业中心。", "ocr_sent": "德意志城市大多兴起于修道院和城堡附近、帝王驻蹭地以及逃亡农奴聚居地,特别是交通和商业中心。", "diffs": [ [ 22, "跸" ] ] }
digital_china.pdf
json { "ori_sent": "三、“双碳”目标与数字化技术1.", "ocr_sent": "三、“双碳”自标与数字化技术1.", "diffs": [ [ 6, "目" ] ] }
guoyun1909.pdf
json { "ori_sent": "此时,立宪万能论已成为大清国的主旋律,人们或过于天真地相信,或过于世故地假装相信,只要一立宪,大清国的任何问题都能迎刃而解。", "ocr_sent": "此时,立宪方能论已成为大清国的主旋律,人们或过于天真地相信,或过于世敌地假装相信,只要一立宪,大清国的任何问题都能迎刃而解。", "diffs": [ [ 5, "万" ], [ 34, "故" ] ] }
lishidewendu.pdf
json { "ori_sent": "在接下来的岁月,拉玛出演了一系列电影,那段历史,图片比文字更有说服力。", "ocr_sent": "在接下来的罗月,拉玛出演了一系列电影,那段历史,图片比文字更有说服力。", "diffs": [ [ 5, "岁" ] ] }
shiyi.pdf
json { "ori_sent": "那一年的5月29日上午,当南美洲上空的星星冉冉升起时,它们都发生了些许位移,而且距离太阳越近的星星,它们位置的改变就越明显。", "ocr_sent": "那一年的5月29日上午,当南美洲上空的星星再再升起时,它们都发生了些许位移,而且距离太阳越近的星星,它们位置的改变就越明显。", "diffs": [ [ 21, "冉" ], [ 22, "冉" ] ] }
weite.pdf
json { "ori_sent": "她提高嗓音,好让他半聋的耳朵听得见。", "ocr_sent": "她提高噪音,好让他半聋的耳朵听得见。", "diffs": [ [ 3, "嗓" ] ] }
wushihui.pdf
json { "ori_sent": "李尊吾带沈方壶冒雪入京,见到踢毽子的程华安,便打消了比武之念。", "ocr_sent": "李尊吾带沈方壶冒雪入京,见到踢键子的程华安,便打消了比武之念。", "diffs": [ [ 15, "毽" ] ] }
yingren.pdf
json { "ori_sent": "虽然如此,那般活跃的妙椿仍没有上京的余力。", "ocr_sent": "虽然如此,那般活跌的妙椿仍没有上京的余力。", "diffs": [ [ 8, "跃" ] ] }
zengguofan.pdf
json { "ori_sent": "曾国潢的曾孙曾昭抡是著名化学家,曾任高教部副部长。", "ocr_sent": "曾国潢的曾孙曾昭抢是著名化学家,曾任高教部副部长。", "diffs": [ [ 8, "抡" ] ] }
zhangshidong.pdf
json { "ori_sent": "慈禧还政住颐和园后,连皇上每次觐见也要递红包。", "ocr_sent": "慈禧还政住顾和园后,连皇上每次豌见也要递红包。", "diffs": [ [ 5, "颐" ], [ 15, "觐" ] ] }
其它
基于文本纠错语料,一个副产品是能构建 相近字形语料库。




