five

PleIAs/NewZealand-PD-Newspapers

收藏
Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/NewZealand-PD-Newspapers
下载链接
链接失效反馈
官方服务:
资源简介:
新西兰公共领域报纸数据集包含新西兰的历史报纸,按年份组织成Parquet文件。每个文件包含从XML文件中提取的详细元数据,如唯一标识符、字数统计和全文内容。数据集主要用于分析历史报纸趋势、研究词汇分布、开发自然语言处理模型等。数据集包含1,772,785个文档,总字数为10,178,602,316,平均每个文档有5,741.59个字。数据集主要包含英文文档。

The New Zealand Public Domain Newspapers dataset comprises a collection of historical newspapers from New Zealand. The dataset is organized into Parquet files divided by year. Each file contains detailed information about the newspaper articles, including metadata extracted from XML files. The dataset can be used for various purposes including analyzing historical newspaper trends, studying the distribution and frequency of words, and developing natural language processing models. The dataset contains 1,772,785 documents with a total of 10,178,602,316 words, averaging 5,741.59 words per document. The dataset primarily contains English-language documents.
提供机构:
PleIAs
原始信息汇总

New Zealand Public Domain Newspapers Dataset 概述

数据集基本信息

  • 数据集名称: New Zealand Public Domain Newspapers
  • 描述: 该数据集包含新西兰历史报纸的集合,按年份组织成Parquet文件。每个文件包含报纸文章的详细信息,包括从XML文件中提取的元数据。
  • 涵盖语言: 主要包含英语文档。
  • 文档总数: 1,772,785
  • 总词数: 10,178,602,316
  • 每篇文档平均词数: 5,741.59

数据集结构

  • 存储格式: Parquet文件,按年份组织。
  • 元数据: 每个Parquet文件包含以下元数据:
    • identifier: 文档的唯一标识符。
    • word_count: 文档的总词数。
    • text: 文档的完整文本内容。
  • 原始文件: 每个Parquet文件附带原始的XML文件,打包成tar.gz文件。

用途

该数据集可用于以下目的:

  • 分析历史报纸的趋势和主题随时间的变化。
  • 研究历史背景下词汇和短语的分布和频率。
  • 开发自然语言处理模型以分析报纸文章的内容。
  • 提取与历史事件及其在报纸中的表现相关的见解。

来源

数据集收集自新西兰的公共领域报纸,原始XML文件经过处理并转换为Parquet格式,以便高效存储和分析。

引用

如在研究中使用此数据集,请按以下格式引用:

@dataset{NZ_Public_Domain_Newspapers_2024, title={New Zealand Public Domain Newspapers Dataset}, author={Pleias}, year={2024}, description={Collection of historical newspapers from New Zealand, organized by year and language, with detailed metadata extracted from XML files.} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作