G17数据集

Name: G17数据集
Creator: 奥克兰大学
Published: 2025-04-03 06:30:45
License: 暂无描述

arXiv2025-04-03 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.02163v1

下载链接

链接失效反馈

官方服务：

资源简介：

G17数据集是一个由J-Sesh字体和真实埃及象形文字照片合成的数据集，用于训练和测试机器学习分类模型。该数据集包含了31107个样本，覆盖了34个象形文字类别，每个类别的样本数量分布均匀。数据集的构建目的是为了解决古埃及语这种低资源语言在机器学习应用中的数据不足问题。

The G17 dataset is a synthetic corpus created by combining the J-Sesh font with real photographs of Egyptian hieroglyphs, intended for training and testing machine learning classification models. It contains 31,107 samples spanning 34 hieroglyph categories, with a uniform sample distribution across each category. This dataset was developed to address the shortage of training data for low-resource languages such as Ancient Egyptian in machine learning applications.

提供机构：

奥克兰大学

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

G17数据集的构建采用了创新的神经风格迁移（NST）技术，将J-Sesh数字字体中的古埃及象形文字字符与真实象形文字照片的风格相结合。具体步骤包括：首先收集175张不同艺术风格的G17'猫头鹰'象形文字照片作为风格图像，然后使用J-Sesh矢量字体中的字符作为内容图像，通过TensorFlow实现的NST算法批量生成合成图像。该过程保留了字符的结构特征，同时注入了真实象形文字的艺术风格多样性，最终形成包含34类、每类71个样本的平衡数据集。

特点

G17数据集的核心特点体现在其独特的异构性生成方式上。通过神经风格迁移技术，数据集既保留了数字字体字符的标准结构，又融合了真实考古场景中象形文字的色彩、纹理等艺术特征。这种合成方法有效解决了古埃及语作为低资源语言的数据稀缺问题，生成的样本在视觉多样性上接近真实照片，同时具备规模可扩展性。特别值得注意的是，数据集中的G17类样本全部源自实地拍摄的考古资料，为研究古埃及文字艺术风格演变提供了珍贵素材。

使用方法

该数据集主要应用于古埃及象形文字的机器学习分类任务。研究人员可采用GlyphNet等专用卷积神经网络架构进行模型训练，建议配合仿射数据增强技术以提升模型泛化能力。使用时应将图像统一调整为100×100像素分辨率，采用75:15:15的比例划分训练集、验证集和测试集。对于迁移学习任务，该数据集生成的模型权重可有效识别真实场景中的象形文字，在文化遗产数字化、博物馆交互系统等领域具有应用潜力。

背景与挑战

背景概述

G17数据集由Lewis Matheson Creed于2024年创建，作为其荣誉学位论文《Neural Style Transfer for Synthesising a Dataset of Ancient Egyptian Hieroglyphs》的核心研究成果。该研究在奥克兰大学计算机科学学院完成，由Vithya Yogarajan博士、Gillian Dobbie教授和Jennifer Hellum博士共同指导。数据集聚焦于古埃及象形文字中的G17类'猫头鹰'符号，旨在通过神经风格迁移技术解决低资源语言在机器学习应用中的数据稀缺问题。作为首个融合真实考古照片与数字字体的风格化数据集，G17为古埃及文字识别领域提供了重要的基准数据，其创新性的数据合成方法对推动象形文字数字化研究具有显著意义。

当前挑战

G17数据集面临双重挑战：在领域问题层面，古埃及象形文字作为低资源语言，存在字符类别不全（现有公开数据集仅覆盖22.5%的常用字符）、艺术风格多样性高（同一字符在不同时期/地域存在形态差异）等固有难题；在构建过程层面，研究者需克服神经风格迁移中的'烧蚀效应'（生成图像残留前序处理痕迹）、计算资源限制（单字符生成耗时90秒）等技术瓶颈，同时需解决原始数据中的标注错误（如Unas数据集的字符误标问题）与跨模态数据对齐（矢量字体与栅格照片的转换）等工程挑战。

常用场景

经典使用场景

G17数据集在古埃及象形文字识别领域具有重要应用价值，尤其在低资源语言环境下。该数据集通过神经风格迁移技术（NST）将数字字体与真实象形文字照片结合，生成多样化的训练样本。其经典使用场景包括训练卷积神经网络（CNN）模型进行象形文字分类，如GlyphNet等专用架构。数据集通过提供风格各异的G17类象形文字（猫头鹰符号），有效解决了传统数据集样本单一、覆盖不足的问题，为古埃及文字自动识别研究提供了关键数据支持。

衍生相关工作

G17数据集推动了多项相关研究的发展：基于该数据集的GlyphNet模型优化工作验证了NST在低资源语言中的有效性；后续研究如Aegyptos移动应用扩展了数据规模至1072个象形文字类别；在方法论层面，该工作启发了对混合数据集（合成数据+真实照片）训练策略的探索。数据集公开后，已成为评估象形文字分类模型泛化能力的基准测试集，相关技术路线也被应用于其他古文字研究领域，如玛雅象形文字和楔形文字的识别。

数据集最近研究