NCSE v2.0

arXiv2025-02-18 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.14901v1

下载链接

链接失效反馈

官方服务：

资源简介：

NCSE v2.0数据集是由19世纪英国报纸和期刊组成的集合，由84,509页图像构成，包含1.4百万条目和3.21亿个单词。数据集由英国19世纪的报纸和期刊构成，旨在为历史学家和社会科学家提供一个改进的光学字符识别（OCR）质量和分类的数字化资源，以促进历史和社会学研究。

提供机构：

不明确

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

NCSE v2.0数据集通过使用Pixtral 12B，一种预训练的图像到文本语言模型，对19世纪英国报纸和期刊的84k页收藏进行OCR处理而构建。Pixtral 12B的OCR能力与其他四种OCR方法进行了比较，实现了1%的字符错误率中位数，比下一个最佳模型低5倍。生成的NCSE v2.0数据集具有改进的文章识别、高质量的OCR和将文本分类为四种类型和十七个主题的功能。

特点

NCSE v2.0数据集的特点包括1.4百万个条目和3.21亿个单词，涵盖了19世纪英国报纸和期刊的丰富内容。数据集的OCR质量显著提高，文本被分类为四种类型（文章、广告、诗歌/歌曲/故事和其他）和十七个主题（艺术、文化、娱乐和媒体；犯罪、法律和正义；灾难、事故和紧急事件；经济、商业和金融；教育；环境；健康；人文；劳工；生活方式和休闲；政治；宗教；科学和技术；社会；体育；冲突、战争与和平；天气）。此外，数据集还提供了文章的相似性分析、可读性评估和事件跟踪的示例用例。

使用方法

NCSE v2.0数据集可用于各种历史和社会学研究。数据集以文本形式存储，易于搜索和阅读。用户可以使用各种文本分析工具和技术来探索数据集中的主题、可读性、事件和其他特征。数据集还提供了关于如何使用Pixtral 12B进行OCR处理的详细信息，以及如何使用ModernBert模型对文本进行分类。此外，数据集还提供了关于如何使用Python脚本进行数据分析和可视化的示例。

背景与挑战

背景概述

19世纪英国报纸和期刊的数字化存档对于现代学者理解当时发生的事件和公众观点至关重要。然而，由于光学字符识别（OCR）技术的限制，这些档案往往难以阅读。NCSE v2.0数据集由Jonathan Bourne于2024年创建，旨在通过使用预训练的图像到文本语言模型Pixtral 12B来改善19世纪英国报纸和期刊的可读性。Pixtral 12B在OCR任务上表现出色，与四个其他OCR方法相比，实现了1%的中值字符错误率，比下一个最佳模型低5倍。NCSE v2.0数据集包含1.4百万条记录和3.21亿个单词，并对文本进行了分类，使其成为历史和社会学研究的有力工具。

当前挑战

NCSE v2.0数据集的创建和OCR过程中面临的主要挑战包括：1) OCR技术在处理19世纪报纸的复杂布局和低质量打印时的局限性；2) 历史文档中缺乏高质量的训练数据，这限制了OCR模型的性能；3) 需要开发精确的布局检测和边界框创建方法，以确保OCR过程能够准确识别和提取文本；4) 语言模型在进行OCR时可能会出现幻觉现象，导致重复或错误地生成文本。此外，OCR技术的成本和效率也是一个挑战，需要找到成本效益高的解决方案。

常用场景

经典使用场景

NCSE v2.0数据集的经典应用场景包括：历史研究、社会学研究、文本分析、话题相似度分析、可读性分析以及事件追踪。例如，研究者可以使用该数据集来分析19世纪报纸中不同话题的报道情况，探讨不同时期社会关注的焦点变化。同时，通过分析文本的可读性，可以了解当时新闻媒体的写作风格和受众特征。

衍生相关工作

NCSE v2.0数据集的衍生相关工作包括：历史文献数字化技术、预训练图像到文本语言模型、OCR技术、文本分类技术、话题相似度分析技术、可读性分析技术以及事件追踪技术。例如，研究者可以基于NCSE v2.0数据集开发更先进的OCR技术，或者利用该数据集进行更深入的历史研究和社会学研究。此外，该数据集还可以用于开发新的文本分析工具，帮助研究者更好地理解和分析历史文献。

数据集最近研究