five

PleIAs/NewZealand-PD-Newspapers-XML

收藏
Hugging Face2024-06-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/NewZealand-PD-Newspapers-XML
下载链接
链接失效反馈
官方服务:
资源简介:
新西兰公共领域报纸数据集包含新西兰的历史报纸,按年份组织成Parquet文件。每个文件包含从XML文件中提取的详细元数据,包括文档的唯一标识符、字数统计和全文内容。数据集主要用于分析历史报纸趋势、研究词汇分布、开发自然语言处理模型以及提取历史事件的相关见解。数据集主要包含英文文档,总文档数为1,772,785,总字数为10,178,602,316,平均每篇文档的字数为5,741.59。

新西兰公共领域报纸数据集包含新西兰的历史报纸,按年份组织成Parquet文件。每个文件包含从XML文件中提取的详细元数据,包括文档的唯一标识符、字数统计和全文内容。数据集主要用于分析历史报纸趋势、研究词汇分布、开发自然语言处理模型以及提取历史事件的相关见解。数据集主要包含英文文档,总文档数为1,772,785,总字数为10,178,602,316,平均每篇文档的字数为5,741.59。
提供机构:
PleIAs
原始信息汇总

新西兰公共领域报纸数据集卡片

数据集概述

数据集名称: 新西兰公共领域报纸

描述: 新西兰公共领域报纸数据集包含新西兰历史报纸的集合。该数据集按年份组织成Parquet文件。每个文件包含报纸文章的详细信息,包括从XML文件中提取的元数据。

涵盖语言: 该数据集主要包含英语文档。

文档总数: 1,772,785

总字数: 10,178,602,316

每篇文档平均字数: 5,741.59

数据集结构

数据集存储在按年份组织的Parquet文件中。每个Parquet文件包含每个文档的以下元数据:

  • identifier:文档的唯一标识符。
  • word_count:文档的总字数。
  • text:文档的完整文本内容。

每个Parquet文件都附带原始的XML文件,收集到每个Parquet文件对应的tar.gz文件中。

用途

该数据集可用于多种目的,包括但不限于:

  • 分析历史报纸随时间变化的趋势和主题。
  • 研究历史背景下的词汇和短语的分布和频率。
  • 开发自然语言处理模型以分析报纸文章的内容。
  • 提取与历史事件及其在报纸中的表现相关的见解。

来源

该数据集从新西兰的公共领域报纸中收集。原始的XML文件经过处理并转换为Parquet格式,以便于存储和分析。

数据集引用

如果您在研究中使用此数据集,请按以下格式引用:

@dataset{NZ_Public_Domain_Newspapers_2024, title={New Zealand Public Domain Newspapers Dataset}, author={Pleias}, year={2024}, description={Collection of historical newspapers from New Zealand, organized by year and language, with detailed metadata extracted from XML files.} }

注意: 该数据集由Pleias提供和维护。保留所有权利。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作