Enevældens Nyheder Online (ENO)
收藏arXiv2025-09-02 更新2025-09-05 收录
下载链接:
https://www2.statsbiblioteket.dk/mediestream/
下载链接
链接失效反馈官方服务:
资源简介:
Enevældens Nyheder Online (ENO) 数据集提供了一段时期内丹麦和挪威主要报纸内容的重建。该数据集包含约4.74亿个单词,使用旨在处理数字化胶片版本的丹麦报纸以及一小部分挪威出版物的神经网络创建。这些出版物在此之前对于计算机来说都是不可读的。数据集的内容包括从约565,000页中提取的474,000,000个单词,是迄今为止最大的可全文搜索的历史丹麦文本数据集。该数据集为计算方法在丹麦和挪威历史中的应用提供了一个全新的基础。
The Enevældens Nyheder Online (ENO) dataset provides a reconstruction of the content of major Danish and Norwegian newspapers over a specific period. Comprising approximately 474 million words, this dataset was created using neural networks designed to process digitized film-based versions of Danish newspapers and a small subset of Norwegian publications. Prior to the development of this dataset, these publications were unreadable by computers. Consisting of 474 million words extracted from around 565,000 pages, the dataset stands as the largest fully searchable historical Danish text dataset to date. This resource offers an entirely new foundation for applying computational methods to the study of Danish and Norwegian history.
提供机构:
丹麦和挪威皇家图书馆
创建时间:
2025-09-02
搜集汇总
数据集介绍

构建方式
该数据集通过神经网络技术对丹麦与挪威绝对主义时期(1660-1849年)的数字化缩微胶片报纸进行重构,涵盖约5.65万页文献。研究团队采用Transkribus平台训练专用文本识别模型,针对哥特体(fraktur)印刷字体优化处理,字符错误率低于0.6%。通过字段模型架构实现版面分割与阅读顺序重构,并对异常版面进行人工校验,最终形成包含4.74亿词汇的历时性语料。
特点
作为1900年前最大规模的丹麦语历史文本语料,数据集具有显著的历时跨度与主题多样性。其内容涵盖政治变革、自然灾害、劳动力市场等社会多维度信息,且包含间歇性 Antiqua 字体的混合排版。文本采用外交转录原则保留原始拼写变异,同时通过定制化词典验证生成每篇文本的词汇准确率指标,为语言建模与历史分析提供质量保障。
使用方法
数据集通过定制化查询界面(https://hislab.quarto.pub/)提供全文检索与相似文本推荐功能,嵌入基于BERT模型的语义向量实现内容导航。同时以Parquet/CSV格式发布于HuggingFace平台,支持学术研究直接调用。使用者需注意数据包含历史敏感内容,建议通过词汇准确率指标进行过滤,并结合原始影像链接进行交叉验证以确保研究可靠性。
背景与挑战
背景概述
在数字人文研究领域,历史报刊文献的数字化重构对于理解近代社会变迁具有不可替代的价值。Enevældens Nyheder Online(ENO)数据集由丹麦奥堡大学的Johan Heinsen与Camilla Bøgeskov等人于2025年创建,旨在重建1660年至1849年丹麦-挪威绝对主义时期主要报刊的内容。该数据集包含约4.74亿词汇,通过神经网络技术对微胶片数字化版本进行高精度文本识别,填补了北欧早期报刊文本挖掘的空白,为历史语言学、社会变迁研究和计算人文提供了前所未有的高质量语料基础。
当前挑战
ENO数据集核心挑战在于解决历史报刊数字化中的双重难题:其一,原始文献因廉价纸张劣化、复杂版面布局及弗拉克特字体特性,导致传统OCR识别准确率不足50%;其二,构建过程中需克服微胶片扫描失真、多语言混杂(如德语穿插)及跨地域文本标准化问题。研究团队通过定制化神经网络模型与人工校验相结合,实现了字符级错误率低于0.6%的突破,但仍在分段模型对诗歌等特殊文本的处理、跨时期字体适应性以及扫描质量不均等方面存在持续优化空间。
常用场景
经典使用场景
在数字人文研究领域,ENO数据集为历史学者提供了前所未有的文本分析基础。该数据集通过神经网络技术重建了1660至1849年间丹麦与挪威主要报纸的内容,使得研究者能够对绝对主义时期的公共舆论、社会变迁及知识传播模式进行大规模定量分析。其47.4亿词汇量的规模与跨时空连续性,特别适用于追踪特定主题如劳动力市场动态或消费文化演变的长时段发展轨迹。
解决学术问题
ENO数据集有效解决了历史文献数字化中的核心难题——低质量OCR识别导致的文本不可用问题。通过定制化神经网络模型,它将传统方法仅50%的字符识别准确率提升至95%以上,使得大规模文本挖掘与语言建模成为可能。这不仅为北欧早期现代史研究提供了高质量语料,更开创了复杂历史印刷体数字化处理的新范式,对数字人文方法论发展具有里程碑意义。
衍生相关工作
基于ENO数据集衍生的经典工作包括Old_News_Segmentation_SBERT语义分割模型与DA-BEH历史丹麦语BERT语言模型。这些模型被广泛应用于同时期北欧文献的自动处理,如18世纪人口普查记录的结构化解析。此外,数据集还支撑了多项跨学科研究,包括基于消费广告的经济史量化分析,以及通过逃亡通知研究社会流动性的数字史学项目。
以上内容由遇见数据集搜集并总结生成



