five

swedish-runestone-inscriptions

收藏
Hugging Face2026-02-04 更新2026-02-05 收录
下载链接:
https://huggingface.co/datasets/birgermoell/swedish-runestone-inscriptions
下载链接
链接失效反馈
官方服务:
资源简介:
斯堪的纳维亚符文石碑铭文数据集是一个多模态数据集,包含2,615条古代斯堪的纳维亚符文铭文及其对应的石碑照片。每条记录包括石碑照片、符文转写(拉丁字母)、古诺尔斯语标准化文本和英语翻译。该数据集旨在评估视觉语言模型(VLMs)在从石碑照片中读取和转录符文铭文的任务上的表现,这一任务结合了历史碑铭学和计算机视觉。数据集涵盖从迁徙时期(约公元400年)到中世纪(约公元1500年)的铭文,主要来自维京时代(约公元800-1100年)。数据来源于乌普萨拉大学维护的斯堪的纳维亚符文文本数据库(Rundata)和维基共享资源的照片。数据集包含多种统计信息,如铭文长度分布、省份分布和时期分布,并提供了详细的字段说明和使用示例。
创建时间:
2026-02-04
搜集汇总
数据集介绍
main_image_url
构建方式
在历史语言学与数字人文的交叉领域,该数据集的构建体现了严谨的学术整合与多模态数据融合。其核心方法是将来自乌普萨拉大学维护的斯堪的纳维亚如尼文数据库(Rundata)的权威文本数据,与从维基共享资源中系统检索并匹配的石碑照片进行精确关联。构建流程首先解析包含约11,500条记录的Rundata数据库,随后通过多策略搜索(如分类、文件名匹配和全文检索)从维基共享资源获取图像,并应用严格的质量筛选,最终形成包含2,615条高质量条目的数据集,每条记录均包含如尼文转写、古诺尔斯语规范化文本、英文翻译及对应石碑影像。
特点
该数据集在历史文档分析与计算机视觉领域具有鲜明的特色。其首要特点是多模态性,将高分辨率的石碑实物照片与经过学术标注的文本序列(包括字符级转写、语言规范化及翻译)紧密结合,为评估视觉-语言模型在复杂历史场景下的性能提供了理想测试平台。数据集覆盖了从迁徙时期到中世纪超过千年的时间跨度,地理上涵盖瑞典、挪威和丹麦的多个省份,其中维京时期(约800-1100年)的铭文占比超过半数,确保了历史与文化的代表性。此外,数据条目附有详细的元数据,如时期代码、省份归属及铭文长度,支持多维度的分析与模型评估。
使用方法
该数据集主要服务于视觉-语言模型在历史文档转录任务上的评估与研究。使用者可通过Hugging Face的`datasets`库便捷加载数据,并利用内置的筛选功能,按省份、历史时期或铭文长度等属性提取特定子集进行针对性分析。在模型评估层面,建议采用字符错误率、词错误率及归一化莱文斯坦相似度等多层次指标,并区分宽松、中等与严格三种规范化级别,以公正衡量模型在剥离学术注释符号后对原始如尼字符的识别能力。数据集还提供了少量高质量示例,可用于小样本学习或提示工程,以探索模型在有限监督下的性能表现。
背景与挑战
背景概述
斯堪的纳维亚卢恩石碑铭文数据集由乌普萨拉大学等机构的研究人员于2026年构建,旨在应对历史铭文学与计算机视觉交叉领域的核心研究问题。该数据集整合了来自斯堪的纳维亚卢恩文本数据库的学术转录数据与维基共享资源的石碑照片,涵盖了维京时代至中世纪跨越千年的2615条卢恩铭文记录。其创建推动了多模态模型在古文字识别与转录任务上的评估,为考古学、历史语言学及数字人文研究提供了关键资源,显著提升了文化遗产数字化分析的精度与广度。
当前挑战
该数据集致力于解决从石碑图像中自动识别与转录卢恩文字这一跨领域难题,其挑战在于模型需克服石碑因风化、苔藓覆盖或拍摄角度导致的图像质量不均,并准确解析古老卢恩字母的复杂形态与语法结构。在构建过程中,研究者面临数据对齐的困难,包括将分散的学术转录与大量图像进行精准匹配,同时需处理铭文部分损毁带来的信息缺失,并确保不同历史时期与地域的铭文样本在数据集中保持代表性平衡。
常用场景
经典使用场景
在历史铭文学与计算机视觉的交叉领域,该数据集为评估视觉语言模型在古文字识别任务上的性能提供了标准基准。其核心应用场景在于,模型需从石碑照片中直接解读卢恩符文,并生成符合学术规范的转写文本。这一过程模拟了考古学家对铭文的释读工作,但通过自动化技术实现,尤其适用于处理大量散布于斯堪的纳维亚地区的卢恩石碑影像。数据集涵盖维京时代至中世纪的多时期铭文,为模型提供了跨越千年的文字演变样本,从而能够系统检验模型在复杂历史文档分析中的鲁棒性与准确性。
实际应用
在实际应用层面,该数据集为文化遗产的数字化保护与公众教育提供了技术支撑。博物馆与考古机构可利用基于该数据集训练的模型,自动对馆藏或野外石碑的影像进行铭文转录与翻译,从而加速文物目录的数字化进程。在教育领域,它能够赋能交互式学习平台,使学生或公众通过上传石碑照片即时获取铭文内容与历史背景,增强对维京时代历史文化的直观理解。此外,在旅游导览系统中,集成此类技术的移动应用可帮助游客在现场实时解读石碑铭文,提升文化遗产地的参观体验,促进历史知识的普及与传播。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦于古文字识别与多模态历史文档分析的经典研究工作。例如,有研究利用该数据集评估了不同视觉语言模型架构在卢恩铭文转录任务上的表现,并提出了针对损伤文本与学术标注的适应性训练策略。另一类工作则专注于开发专门的图像预处理与增强方法,以改善因石碑表面侵蚀或光照不均导致的识别困难。此外,部分学者结合该数据集与其它古代文字语料,开展了跨文字体系的比较研究,探索模型对不同古文字系统的泛化能力。这些工作共同推动了计算铭文学这一新兴领域的发展,为利用人工智能技术解读历史文献提供了方法论范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作