Softalk TOC/Masthead/AdIndex Dataset

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/SoftalkAppleProject/datasets_toc-masthead-adindex

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Softalk杂志（Apple版）的目录（TOC）、报头和广告商索引，作为研究Softalk Apple项目的一部分。数据集包括图像文件、djvuXML文件以及用于关联印刷页与数字化图像文件名的元数据。

This dataset comprises the table of contents (TOC), headers, and advertiser indexes from Softalk Magazine (Apple Edition), as part of the Softalk Apple Project research. The dataset includes image files, djvuXML files, and metadata used to associate printed pages with digitized image filenames.

创建时间：

2016-06-17

原始信息汇总

数据集概述

数据集名称

Softalk Magazine: The TOC, Masthead, and Advertiser Index Corpus

数据集内容

Table of Contents (TOC): 杂志目录。
Masthead: 杂志编辑和工作人员名单。
Advertisers Index: 广告商索引。

数据集结构

ppg2leaf_map 子目录: 包含48个JSON格式的临时数据文件和一个Excel表格，汇总了所有9,547个leaf，提供了一个透视表，展示实际（54%）与推断（46%）的印刷页码比例。
images 子目录: 包含91页的高分辨率页面图像，这些页面包含本数据集中的文档结构。
djvu_text 目录: 包含由Internet Archive在库存数字化过程中生成的djvuXML和djvu文本文件。
magpage 目录: 包含杂志和页面格式的文件，目前为工作进程中的不完整文件。
scripts 目录: 包含用于生成本数据集中masthead和Ad Index结构的文本和CSV文件的Python脚本。

数据集更新

最新更新 (27 Feb 2017): 上传了完整的"ppg2leaf"映射，这是一个元数据元组，将Softalk杂志的印刷页与Internet Archive中其数字化图像文件名（称为"leaf" ID）相关联。

数据集许可证

许可证: Creative Commons Attribution-ShareAlike 4.0 International License.

数据集来源

项目: The Softalk Apple Project
贡献者: Citizen Scientists of The Softalk Apple Project 和 FactMiners Citizen Scientists.

搜集汇总

数据集介绍

构建方式

AdIndex Dataset的构建基于Softalk杂志（Apple版）的目录（TOC）、刊头（Masthead）和广告索引（Advertisers Index）。该数据集通过整合印刷页面与数字化图像文件名之间的元数据关系，形成了一个完整的ppg2leaf映射。具体而言，研究团队通过人工标注和自动化工具相结合的方式，将每期杂志的印刷页码与其对应的数字化图像文件名（leaf ID）关联起来，最终生成了包含9,547个页面的元数据集。此外，数据集还包含了每期杂志的目录、刊头和广告索引的文本内容，并通过Python脚本进行自动化提取和整理。

使用方法

AdIndex Dataset的使用方法灵活多样。研究者可以通过提供的Python脚本，自动化提取和处理目录、刊头和广告索引的文本内容，并结合ppg2leaf映射进行进一步的分析。对于非开发者，数据集提供了Excel、CSV、JSON和XML等多种格式的文件，便于直接导入数据分析工具进行处理。此外，数据集还包含了每期杂志的高分辨率页面图像，研究者可以通过这些图像进行视觉分析或与文本数据结合进行多模态研究。

背景与挑战

背景概述

AdIndex Dataset是由The Softalk Apple Project团队创建的一个专门针对Softalk杂志（Apple版）的目录（TOC）、刊头（Masthead）和广告索引（Advertisers Index）的语料库。该数据集的构建始于2017年，旨在通过数字化和结构化的方式保存和分析历史杂志内容，特别是广告信息的分布与关联。该项目的核心研究问题是如何有效地将印刷页码与数字化图像文件名进行关联，并在此基础上进行广告数据的提取与分析。这一研究不仅对历史文献的数字化保存具有重要意义，也为广告学、出版学等相关领域的研究提供了宝贵的数据资源。

当前挑战

AdIndex Dataset在构建过程中面临的主要挑战包括：首先，如何准确地将印刷页码与数字化图像文件名进行关联，这一过程涉及大量的元数据处理和人工校验。其次，广告数据的提取与结构化处理需要复杂的脚本支持，且需确保数据的准确性和完整性。此外，由于历史文献的数字化过程中可能存在缺失或错误，如何通过#GroundTruth方法进行校正和补充也是一个重要的挑战。这些挑战不仅影响了数据集的构建效率，也对后续的数据分析和应用提出了更高的要求。

常用场景

经典使用场景

AdIndex Dataset 的经典使用场景主要集中在历史文献的数字化与元数据关联研究领域。该数据集通过提供Softalk杂志的目录（TOC）、刊头（Masthead）和广告索引（AdIndex）的详细信息，使得研究者能够深入分析历史出版物的结构与内容。特别是，数据集中的'ppg2leaf'映射关系，为数字化文献的页面编号与图像文件名的关联提供了重要依据，极大地促进了历史文献的数字化处理与分析。

解决学术问题

AdIndex Dataset 解决了历史文献数字化过程中元数据缺失与不一致的学术问题。通过提供精确的页面编号与数字化图像文件名的映射关系，该数据集为研究者提供了可靠的元数据基础，从而支持更精确的历史文献分析与研究。此外，数据集还为数字化文献的自动化处理提供了宝贵的参考，推动了相关领域的技术进步与方法创新。

实际应用

在实际应用中，AdIndex Dataset 被广泛用于历史文献的数字化与元数据管理。例如，图书馆和档案馆可以利用该数据集来提高历史文献的数字化效率和准确性，确保数字化文献的长期保存与便捷检索。同时，出版行业也可以借鉴该数据集的元数据管理方法，优化出版物的数字化流程，提升数字化出版物的质量与用户体验。

数据集最近研究