Jinwen-Dataset
收藏github2026-03-31 更新2026-04-02 收录
下载链接:
https://github.com/1bai1/Jinwen-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含14,000张图像(10,000张训练集/3,000张验证集/1,000张测试集),结合了真实的青铜器铭文拓片和复杂的合成样本。数据集专注于字符定位任务,所有字符均标记为单一类别`char`,不提供转录(翻译)。数据集还应用了受限的磨损/撕裂增强,以模拟青铜器的自然衰变。
This dataset consists of 14,000 images, split into 10,000 training samples, 3,000 validation samples, and 1,000 test samples. It combines real rubbings of inscriptions on bronze vessels and sophisticated synthetic samples. The dataset focuses on character localization tasks, where all characters are annotated with a single category label `char`, and no transcriptions are provided. Restricted wear and tear augmentations are also applied to simulate the natural decay of bronze artifacts.
创建时间:
2026-03-31
原始信息汇总
Jinwen-Dataset 数据集概述
数据集简介
Jinwen-Dataset 是一个用于光学字符识别(OCR)和古文字学研究的金文(中国青铜器铭文)数据集。
数据集构成与生成
本数据集是一个包含 14,000 张图像 的混合数据集,结合了真实的金文拓片与复杂的合成样本。
- 数据划分:训练集 10,000 张 / 验证集 3,000 张 / 测试集 1,000 张。
合成策略(多字符布局)
为模拟金文传统的垂直阅读顺序和布局,合成数据遵循以下严格约束:
- 密度与覆盖:每张图像至少包含 25 个字符,确保背景覆盖率超过 75%。
- 垂直对齐:字符按规则的垂直列排列。为模仿真实拓片,同一列中相邻字符间应用了 垂直重叠效果。
- 随机变化:为提高模型鲁棒性,引入了以下随机参数:
- 列数和每列字符数的变化。
- 字符大小、列间距和重叠比例的细微波动。
- 轻微的仿射和透视变换,以及亮度抖动。
标注与任务
- 标注格式:YOLO。
- 任务类型:目标检测(字符定位)。
- 标签说明:本数据集仅关注“字符在何处”。所有字符均标注在单一类别
char下。此版本不提供转录(翻译)信息。
数据增强(受限增强)
为模拟青铜器文物的自然风化,应用了 受限磨损/撕裂增强。
- 目标:在保持笔画结构完整性的同时,引入轻微侵蚀和纹理噪声。
- 约束:增强保持“保守”,以防止模型学习不切实际的噪声模式。
完整数据集获取
注意:本仓库目前提供数据集的 样本子集 用于演示和测试。 如需为学术研究或非商业用途申请访问 完整数据集(14,000 张图像),请联系作者:
- 联系人:[Jinmingwanxiang]
- 邮箱:[cleopatradonahue261991pfp@gmail.com]
许可证
本数据集采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。
- 非商业性:未经明确事先授权,不得将此数据集用于任何商业目的或获取经济利益。
- 署名:使用此数据集时必须注明适当出处并链接至本仓库:[Insert Your Repository Link or Name Here]。
- 相同方式共享:如果您再混合、转换或基于本数据集创作,您必须根据原始许可协议分发您的贡献。
引用
如果您发现此数据集对您的研究有帮助,请按以下方式引用:
[Jinmingwanxiang]. (2026). Jinwen-Dataset: A Comprehensive Dataset of Chinese Bronze Inscriptions. GitHub. [https://github.com/1bai1/Jinwen-Dataset.git]
搜集汇总
数据集介绍

构建方式
在古文字学与数字人文交叉领域,Jinwen数据集通过融合真实拓片与合成样本构建而成,共包含一万四千张图像,划分为训练、验证与测试三个子集。合成策略严格遵循青铜器铭文传统的竖向阅读顺序与布局规范,每幅图像至少包含二十五个字符,确保背景覆盖率达到百分之七十五以上。字符按垂直列对齐,并施加纵向重叠效果以模拟真实拓片的视觉特征。通过引入列数、每列字符数量的随机变化,以及字符尺寸、列间距、重叠比例的细微波动,配合仿射变换、透视畸变与亮度扰动,增强了数据集的多样性与模型鲁棒性。
特点
该数据集专注于青铜器铭文的字符定位任务,采用YOLO标注格式,将所有字符统一归为单一类别,暂不提供文字转录内容。其核心特色在于通过受限的磨损增强技术,模拟青铜文物自然风化过程,在保持笔画结构完整性的前提下引入轻微侵蚀与纹理噪声。这种保守的数据增强策略避免了模型学习不真实的噪声模式,确保了算法在复杂历史遗存图像上的泛化能力。数据集严格遵循非商业共享协议,为学术研究提供了高质量的标注资源。
使用方法
研究者可通过联系作者获取完整数据集,适用于光学字符识别与古文字学领域的模型训练与评估。使用前需仔细阅读许可协议,遵守署名、非商业性使用及相同方式共享的约束条款。在模型开发过程中,建议利用训练集进行字符检测网络训练,验证集用于超参数调优,测试集则作为最终性能评估的标准基准。引用该数据集时,请按照提供的文献格式标注来源,以支持学术成果的追溯与共享。
背景与挑战
背景概述
金文数据集(Jinwen-Dataset)是面向光学字符识别与古文字学研究的专项数据资源,由研究人员Jinmingwanxiang于2026年构建并发布。该数据集聚焦于中国古代青铜器铭文的数字化识别问题,旨在通过结合真实拓片与合成样本,为金文文字的自动定位与检测提供标准化基准。其核心研究在于解决古文字材料因年代久远、字形复杂且布局独特而难以被现代计算机视觉模型有效处理的难题,对推动文化遗产的智能保护与古文字学的定量研究具有显著意义。
当前挑战
金文数据集所应对的领域挑战主要在于古文字检测的固有复杂性:青铜铭文常呈现磨损、布局垂直紧凑、字符形态多变等特点,传统OCR方法难以直接适用。在构建过程中,挑战体现在多方面:一是需在合成数据中严格模拟金文垂直排列、字符重叠与覆盖密度等布局特征,以逼近真实拓片的视觉形态;二是数据增强必须保持克制,避免引入失真噪声,确保模型学习到的是文字结构而非人为伪影;三是数据标注仅提供字符位置而缺乏转录信息,这要求模型具备更强的几何感知能力,但也限制了其在全文释读任务上的直接应用。
常用场景
经典使用场景
在古文字学与计算机视觉交叉领域,Jinwen数据集为金文(中国青铜器铭文)的自动字符定位提供了关键资源。该数据集通过结合真实拓片与合成样本,模拟了传统竖排阅读顺序与布局,其经典使用场景集中于训练深度学习模型进行金文字符的检测与识别。研究者可利用该数据集开发高效的OCR系统,以应对金文因年代久远、字形复杂及布局多变所带来的识别挑战,从而推动数字化古籍保护与文字研究的自动化进程。
解决学术问题
Jinwen数据集有效解决了金文研究中字符定位精度不足的学术难题。传统方法依赖人工释读,效率低下且易受主观影响,而该数据集通过提供大规模标注样本,支持基于目标检测的自动化字符定位,显著提升了识别准确性与鲁棒性。其意义在于为古文字数字化建立了标准化基准,促进了计算机视觉技术与考古学的深度融合,为后续的铭文转录、语义分析等高层研究奠定了数据基础。
衍生相关工作
围绕Jinwen数据集,已衍生出多项经典研究工作,主要集中在金文检测与识别算法的优化。例如,研究者基于YOLO框架开发了适应金文布局的改进模型,通过引入多尺度特征融合与抗噪机制,提升了在复杂背景下的字符定位性能。同时,该数据集也激发了跨学科合作,如结合自然语言处理技术进行铭文语义重建,或利用生成对抗网络合成更逼真的金文样本,进一步拓展了古文字智能研究的边界。
以上内容由遇见数据集搜集并总结生成



