PleIAs/NewZealand-PD-Newspapers-XML
收藏Hugging Face2024-06-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/NewZealand-PD-Newspapers-XML
下载链接
链接失效反馈官方服务:
资源简介:
新西兰公共领域报纸数据集包含新西兰的历史报纸,按年份组织成Parquet文件。每个文件包含从XML文件中提取的详细元数据,包括文档的唯一标识符、字数统计和全文内容。数据集主要用于分析历史报纸趋势、研究词汇分布、开发自然语言处理模型以及提取历史事件的相关见解。数据集主要包含英文文档,总文档数为1,772,785,总字数为10,178,602,316,平均每篇文档的字数为5,741.59。
新西兰公共领域报纸数据集包含新西兰的历史报纸,按年份组织成Parquet文件。每个文件包含从XML文件中提取的详细元数据,包括文档的唯一标识符、字数统计和全文内容。数据集主要用于分析历史报纸趋势、研究词汇分布、开发自然语言处理模型以及提取历史事件的相关见解。数据集主要包含英文文档,总文档数为1,772,785,总字数为10,178,602,316,平均每篇文档的字数为5,741.59。
提供机构:
PleIAs
原始信息汇总
新西兰公共领域报纸数据集卡片
数据集概述
数据集名称: 新西兰公共领域报纸
描述: 新西兰公共领域报纸数据集包含新西兰历史报纸的集合。该数据集按年份组织成Parquet文件。每个文件包含报纸文章的详细信息,包括从XML文件中提取的元数据。
涵盖语言: 该数据集主要包含英语文档。
文档总数: 1,772,785
总字数: 10,178,602,316
每篇文档平均字数: 5,741.59
数据集结构
数据集存储在按年份组织的Parquet文件中。每个Parquet文件包含每个文档的以下元数据:
identifier:文档的唯一标识符。word_count:文档的总字数。text:文档的完整文本内容。
每个Parquet文件都附带原始的XML文件,收集到每个Parquet文件对应的tar.gz文件中。
用途
该数据集可用于多种目的,包括但不限于:
- 分析历史报纸随时间变化的趋势和主题。
- 研究历史背景下的词汇和短语的分布和频率。
- 开发自然语言处理模型以分析报纸文章的内容。
- 提取与历史事件及其在报纸中的表现相关的见解。
来源
该数据集从新西兰的公共领域报纸中收集。原始的XML文件经过处理并转换为Parquet格式,以便于存储和分析。
数据集引用
如果您在研究中使用此数据集,请按以下格式引用:
@dataset{NZ_Public_Domain_Newspapers_2024, title={New Zealand Public Domain Newspapers Dataset}, author={Pleias}, year={2024}, description={Collection of historical newspapers from New Zealand, organized by year and language, with detailed metadata extracted from XML files.} }
注意: 该数据集由Pleias提供和维护。保留所有权利。



