five

MegaHan97K

收藏
arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://github.com/SCUT-DLVCLab/MegaHan97K
下载链接
链接失效反馈
官方服务:
资源简介:
MegaHan97K是一个包含超过97,455个汉字类别的超大规模数据集,旨在解决汉字识别领域中的超大规模类别识别问题。该数据集全面支持最新的GB18030-2022标准,并提供了平衡的样本分布,包括手写、历史和合成三个子集。MegaHan97K的创建过程涉及从多个来源收集数据,并进行数据清洗、处理和扩充。该数据集的应用领域包括文化遗产保护、数字应用和社会需求,旨在推动汉字识别技术的发展。

MegaHan97K is an ultra-large-scale dataset containing over 97,455 Chinese character categories, which aims to address the ultra-large-scale category recognition problem in the field of Chinese character recognition. This dataset fully supports the latest GB18030-2022 standard, and features a balanced sample distribution with three subsets: handwritten, historical, and synthetic. The construction of MegaHan97K involves collecting data from multiple sources, followed by data cleaning, processing, and augmentation. The application scenarios of this dataset cover cultural heritage conservation, digital applications, and social needs, and it aims to promote the development of Chinese character recognition technologies.
提供机构:
华南理工大学电子与信息工程学院, 中国广东省广州市; 华南理工大学珠海现代工业创新研究院, 中国广东省珠海市
创建时间:
2025-06-05
搜集汇总
数据集介绍
main_image_url
构建方式
MegaHan97K数据集的构建采用了多源数据整合与创新生成相结合的策略。研究团队首先依据GB18030-2022和Unicode 15.0标准构建了包含98,208个汉字类别的初始字库,通过IDS比对消除结构重复字符后保留97,455个类别。数据采集分为三个子集:历史子集整合了M5HisDoc数据库和汉典网的康熙字典图像;手写子集通过定制化采集平台获取94名志愿者书写的90万样本,并进行了古籍风格的数据增强;合成子集则采用FontDiffuser模型基于319种字体模板生成每字符35个样本。这种三位一体的构建方式既保证了字符覆盖的全面性,又通过数据增强技术有效缓解了长尾分布问题。
特点
作为当前最大规模的中文字符数据集,MegaHan97K具有三个显著特征:其字符类别数量达到97,455个,是现有数据集的6倍以上,完整覆盖GB18030-2022标准;通过历史、手写和合成三个互补子集的组合,实现了数据多样性与样本平衡性的统一,每个类别平均拥有47个样本;特别设计的古籍风格增强处理(如随机笔画增厚、古文献背景融合等)使数据更贴近实际应用场景。数据集还提供了字符的IDS编码等结构化信息,为形态相似字符的细粒度识别提供了支持。
使用方法
该数据集支持通用和零样本两种实验范式。在通用场景下,研究者可利用合成子集进行模型预训练,再结合手写和历史子集进行微调;零样本场景则严格分离训练集(GB18030-2000标准字符)与测试集(新增字符)。基准测试表明,当处理形态相似字符时,建议采用CCR-CLIP等图像-IDS对齐方法;针对存储限制问题,HierCode等轻量级层次编码方法展现出优势。数据集提供的三个子集可独立或组合使用,历史子集特别适合古籍数字化研究,而合成子集则为数据增强提供了丰富资源。
背景与挑战
背景概述
MegaHan97K数据集由华南理工大学电子与信息工程学院的研究团队于2025年提出,旨在解决超大规模中文字符识别这一关键挑战。作为首个全面支持GB18030-2022国家标准的字符数据集,其包含97,455个字符类别,覆盖了现代汉字系统中87,887个标准字符及近万个罕见字符和变体。该数据集的创建突破了现有最大中文字符数据集16,151类的规模限制,通过精心设计的手写、历史文献和合成三个子集,有效缓解了字符识别领域长期存在的长尾分布问题。在文化遗产数字化、古籍文献研究等应用场景中,MegaHan97K为探索超大规模字符识别问题提供了重要的基准平台。
当前挑战
该数据集主要面临三方面挑战:在领域问题层面,超大规模字符类别导致形态相似字符(如IDS编辑距离≤3的字符)识别准确率下降38.34%,十笔画以上复杂字符错误率高达74.18%;在构建过程中,历史文献子集面临样本稀缺问题(20%类别样本不足3个),手写采集需耗费2,300人时进行质量验证;技术实现上,模型存储需求随类别数激增60%以上,零样本识别场景中 radical embedding方法的准确率局限在45-47%区间。此外,字体合成技术对复杂字符的笔画错位问题也制约了数据扩充效果。
常用场景
经典使用场景
在中文光学字符识别(OCR)领域,MegaHan97K数据集为超大类别的汉字识别提供了前所未有的研究平台。该数据集覆盖了97,455个汉字类别,远超现有数据集的规模,特别适用于处理古籍文献数字化、罕见字识别等复杂场景。通过其手写、历史和合成三个子集,MegaHan97K能够全面模拟真实世界中的汉字多样性,为研究者提供了丰富的实验材料。
实际应用
在实际应用中,MegaHan97K数据集为文化遗产保护、古籍数字化和社会需求提供了重要支持。例如,在古籍修复领域,该数据集可以帮助识别罕见字和变体字,辅助历史文献的数字化工作。在教育领域,它能够支持汉字学习系统的开发,特别是对于罕见字的学习。此外,该数据集还可用于提升现代OCR系统在复杂场景下的表现,如手写笔记识别、历史文档处理等。
衍生相关工作
MegaHan97K数据集已经衍生出多项经典研究工作。基于该数据集,研究者开发了多种汉字识别方法,如基于CLIP的CCR-CLIP模型、原型校准的PCSS方法等。这些工作不仅在超大类汉字识别上取得了突破,还为相关领域如零样本学习、字体生成等提供了新的研究思路。此外,该数据集也促进了跨模态学习、小样本学习等前沿方向的发展,为模式识别领域带来了新的研究机遇。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作