Apple Daily Corpus

github2022-01-01 更新2024-05-31 收录

下载链接：

https://github.com/alex-the-man/apple-daily-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

蘋果日報語料庫是一个包含2002年1月1日至2021年6月20日期间蘋果日報发表的文章的文本语料库。数据集以csv格式存储，每个文件代表一天的文章，包含文章的唯一键、发表日期、文章每日ID、标题和全文。

The Apple Daily Corpus is a text corpus comprising articles published by Apple Daily from January 1, 2002, to June 20, 2021. The dataset is stored in CSV format, with each file representing a day's articles, including the unique key of the article, publication date, daily article ID, title, and full text.

创建时间：

2021-09-01

原始信息汇总

Apple Daily Corpus - 蘋果日報語料庫

数据集描述

时间范围: 2002/01/01 至 2021/06/20
内容: 包含蘋果日報发布的文章文本。

数据格式

文件组织: 每日发布的文章组织在同一个csv文件中，文件名以yyyymmdd格式表示发布日期。
数据结构: 每个csv文件包含以下列：
- key: 唯一标识每篇文章的键。
- date: 文章发布日期，格式为yyyymmdd。
- article_daily_id: 每日文章的ID，例如，ID为0的文章为当日头条。
- title: 文章标题，该标题也包含在text列的开头。
- text: 文章文本内容，不保留换行符。

构建方法

构建工具: 使用Makefile从原始备份apple-articles-plaintext-20020101-20210620.zip构建语料库。
构建步骤:
1. 下载并解压apple-articles-plaintext-20020101-20210620.zip至仓库根目录，保持data文件夹结构。
2. 运行make all命令进行构建，需要xargs、python3和BeautifulSoup。
3. 生成的csv文件位于corpus文件夹下。

示例使用

示例文件: 包含两个Spark笔记本，位于sample文件夹中：
- ngram.ipynb: 列出语料库中频繁出现的词组合。
- sentences.ipynb: 解析并扫描语料库中的所有句子。

缺失文章

缺失记录: 部分文章在语料库中缺失，详细信息记录在error.log文件中。

许可证

文章许可证: 蘋果日報文章的许可证状态未知。
衍生作品许可证: sample文件夹下的衍生作品遵循CC BY 4.0许可证。

搜集汇总

数据集介绍

构建方式

Apple Daily Corpus的构建过程始于对2002年1月1日至2021年6月20日期间蘋果日報发布的文章进行系统收集。这些文章被整理成每日一个的CSV文件，文件名以`yyyymmdd`格式表示发布日期。每篇文章作为CSV文件中的一行存储，包含唯一标识符、发布日期、文章ID、标题和正文等关键信息。构建过程中，利用Makefile从原始备份文件`apple-articles-plaintext-20020101-20210620.zip`中提取数据，并通过Python脚本和BeautifulSoup库进行数据清洗和格式化，最终生成语料库。

特点

该数据集的特点在于其时间跨度和内容的丰富性，涵盖了近二十年的新闻报道，为研究提供了广泛的时间序列数据。每篇文章均包含详细的元数据，如唯一标识符和发布日期，便于精确的数据检索和分析。此外，数据集中的文章标题和正文分离存储，便于用户根据需求选择使用。尽管部分文章缺失，但数据集仍提供了大量的文本资源，适用于自然语言处理、文本挖掘和历史研究等多个领域。

使用方法

使用Apple Daily Corpus时，用户首先需下载并解压原始备份文件，随后通过运行Makefile命令生成语料库。生成的CSV文件位于`corpus`文件夹中，用户可根据需要直接读取这些文件进行数据分析。此外，数据集附带的Spark笔记本示例（如`ngram.ipynb`和`sentences.ipynb`）为用户提供了文本分析和句子解析的参考方法。通过这些工具，用户可以轻松提取高频词组合或分析句子结构，从而深入挖掘数据集中的信息。

背景与挑战

背景概述

Apple Daily Corpus 数据集收录了自2002年1月1日至2021年6月20日期间由《蘋果日報》发布的新闻文章，涵盖了近二十年的新闻内容。该数据集由匿名研究团队构建，旨在为自然语言处理、新闻文本分析以及社会文化研究提供丰富的语料资源。其核心研究问题包括新闻文本的时序分析、主题建模以及语言风格演变等。该数据集对新闻媒体研究、历史事件追踪以及语言模型训练具有重要价值，尤其在中文新闻语料库领域填补了重要空白。

当前挑战

Apple Daily Corpus 数据集在构建与应用过程中面临多重挑战。首先，新闻文本的多样性和复杂性使得数据清洗与标准化成为难题，尤其是文本格式的统一与噪声数据的处理。其次，部分文章缺失导致数据完整性不足，可能影响研究的全面性。此外，由于《蘋果日報》的版权状态不明，数据集的法律合规性存在潜在风险，限制了其在某些场景下的应用。最后，如何高效地从大规模文本中提取有价值的信息，例如主题分布或语言模式，仍是自然语言处理领域的技术挑战。

常用场景

经典使用场景

Apple Daily Corpus 数据集广泛应用于自然语言处理领域，特别是在文本挖掘和语言模型训练中。研究者利用该数据集进行词频分析、句法解析以及情感分析等任务。通过分析苹果日报的文本内容，可以深入理解中文新闻语言的特点和演变趋势。

衍生相关工作

基于 Apple Daily Corpus 数据集，许多经典的自然语言处理工作得以展开。例如，研究者开发了针对中文新闻的特定语言模型，提升了中文文本分类和情感分析的准确性。此外，该数据集还支持了多项关于新闻语言演变和媒体影响力的研究。

数据集最近研究