PleIAs/NewZealand-PD-Newspapers-XML

Name: PleIAs/NewZealand-PD-Newspapers-XML
Creator: PleIAs
Published: 2024-06-26 12:27:11
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/NewZealand-PD-Newspapers-XML

下载链接

链接失效反馈

官方服务：

资源简介：

新西兰公共领域报纸数据集包含新西兰的历史报纸，按年份组织成Parquet文件。每个文件包含从XML文件中提取的详细元数据，包括文档的唯一标识符、字数统计和全文内容。数据集主要用于分析历史报纸趋势、研究词汇分布、开发自然语言处理模型以及提取历史事件的相关见解。数据集主要包含英文文档，总文档数为1,772,785，总字数为10,178,602,316，平均每篇文档的字数为5,741.59。

提供机构：

PleIAs

原始信息汇总

新西兰公共领域报纸数据集卡片

数据集概述

数据集名称： 新西兰公共领域报纸

描述： 新西兰公共领域报纸数据集包含新西兰历史报纸的集合。该数据集按年份组织成Parquet文件。每个文件包含报纸文章的详细信息，包括从XML文件中提取的元数据。

涵盖语言： 该数据集主要包含英语文档。

文档总数： 1,772,785

总字数： 10,178,602,316

每篇文档平均字数： 5,741.59

数据集结构

数据集存储在按年份组织的Parquet文件中。每个Parquet文件包含每个文档的以下元数据：

identifier：文档的唯一标识符。
word_count：文档的总字数。
text：文档的完整文本内容。

每个Parquet文件都附带原始的XML文件，收集到每个Parquet文件对应的tar.gz文件中。

用途

该数据集可用于多种目的，包括但不限于：

分析历史报纸随时间变化的趋势和主题。
研究历史背景下的词汇和短语的分布和频率。
开发自然语言处理模型以分析报纸文章的内容。
提取与历史事件及其在报纸中的表现相关的见解。

来源

该数据集从新西兰的公共领域报纸中收集。原始的XML文件经过处理并转换为Parquet格式，以便于存储和分析。

数据集引用

如果您在研究中使用此数据集，请按以下格式引用：

@dataset{NZ_Public_Domain_Newspapers_2024, title={New Zealand Public Domain Newspapers Dataset}, author={Pleias}, year={2024}, description={Collection of historical newspapers from New Zealand, organized by year and language, with detailed metadata extracted from XML files.} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集