five

Apple Daily Corpus

收藏
github2022-01-01 更新2024-05-31 收录
下载链接:
https://github.com/alex-the-man/apple-daily-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
蘋果日報語料庫是一个包含2002年1月1日至2021年6月20日期间蘋果日報发表的文章的文本语料库。数据集以csv格式存储,每个文件代表一天的文章,包含文章的唯一键、发表日期、文章每日ID、标题和全文。

The Apple Daily Corpus is a text corpus comprising articles published by Apple Daily from January 1, 2002, to June 20, 2021. The dataset is stored in CSV format, with each file representing a day's articles, including the unique key of the article, publication date, daily article ID, title, and full text.
创建时间:
2021-09-01
原始信息汇总

Apple Daily Corpus - 蘋果日報語料庫

数据集描述

  • 时间范围: 2002/01/01 至 2021/06/20
  • 内容: 包含蘋果日報发布的文章文本。

数据格式

  • 文件组织: 每日发布的文章组织在同一个csv文件中,文件名以yyyymmdd格式表示发布日期。
  • 数据结构: 每个csv文件包含以下列:
    • key: 唯一标识每篇文章的键。
    • date: 文章发布日期,格式为yyyymmdd
    • article_daily_id: 每日文章的ID,例如,ID为0的文章为当日头条。
    • title: 文章标题,该标题也包含在text列的开头。
    • text: 文章文本内容,不保留换行符。

构建方法

  • 构建工具: 使用Makefile从原始备份apple-articles-plaintext-20020101-20210620.zip构建语料库。
  • 构建步骤:
    1. 下载并解压apple-articles-plaintext-20020101-20210620.zip至仓库根目录,保持data文件夹结构。
    2. 运行make all命令进行构建,需要xargspython3BeautifulSoup
    3. 生成的csv文件位于corpus文件夹下。

示例使用

  • 示例文件: 包含两个Spark笔记本,位于sample文件夹中:
    • ngram.ipynb: 列出语料库中频繁出现的词组合。
    • sentences.ipynb: 解析并扫描语料库中的所有句子。

缺失文章

  • 缺失记录: 部分文章在语料库中缺失,详细信息记录在error.log文件中。

许可证

  • 文章许可证: 蘋果日報文章的许可证状态未知。
  • 衍生作品许可证: sample文件夹下的衍生作品遵循CC BY 4.0许可证。
搜集汇总
数据集介绍
main_image_url
构建方式
Apple Daily Corpus的构建过程始于对2002年1月1日至2021年6月20日期间蘋果日報发布的文章进行系统收集。这些文章被整理成每日一个的CSV文件,文件名以`yyyymmdd`格式表示发布日期。每篇文章作为CSV文件中的一行存储,包含唯一标识符、发布日期、文章ID、标题和正文等关键信息。构建过程中,利用Makefile从原始备份文件`apple-articles-plaintext-20020101-20210620.zip`中提取数据,并通过Python脚本和BeautifulSoup库进行数据清洗和格式化,最终生成语料库。
特点
该数据集的特点在于其时间跨度和内容的丰富性,涵盖了近二十年的新闻报道,为研究提供了广泛的时间序列数据。每篇文章均包含详细的元数据,如唯一标识符和发布日期,便于精确的数据检索和分析。此外,数据集中的文章标题和正文分离存储,便于用户根据需求选择使用。尽管部分文章缺失,但数据集仍提供了大量的文本资源,适用于自然语言处理、文本挖掘和历史研究等多个领域。
使用方法
使用Apple Daily Corpus时,用户首先需下载并解压原始备份文件,随后通过运行Makefile命令生成语料库。生成的CSV文件位于`corpus`文件夹中,用户可根据需要直接读取这些文件进行数据分析。此外,数据集附带的Spark笔记本示例(如`ngram.ipynb`和`sentences.ipynb`)为用户提供了文本分析和句子解析的参考方法。通过这些工具,用户可以轻松提取高频词组合或分析句子结构,从而深入挖掘数据集中的信息。
背景与挑战
背景概述
Apple Daily Corpus 数据集收录了自2002年1月1日至2021年6月20日期间由《蘋果日報》发布的新闻文章,涵盖了近二十年的新闻内容。该数据集由匿名研究团队构建,旨在为自然语言处理、新闻文本分析以及社会文化研究提供丰富的语料资源。其核心研究问题包括新闻文本的时序分析、主题建模以及语言风格演变等。该数据集对新闻媒体研究、历史事件追踪以及语言模型训练具有重要价值,尤其在中文新闻语料库领域填补了重要空白。
当前挑战
Apple Daily Corpus 数据集在构建与应用过程中面临多重挑战。首先,新闻文本的多样性和复杂性使得数据清洗与标准化成为难题,尤其是文本格式的统一与噪声数据的处理。其次,部分文章缺失导致数据完整性不足,可能影响研究的全面性。此外,由于《蘋果日報》的版权状态不明,数据集的法律合规性存在潜在风险,限制了其在某些场景下的应用。最后,如何高效地从大规模文本中提取有价值的信息,例如主题分布或语言模式,仍是自然语言处理领域的技术挑战。
常用场景
经典使用场景
Apple Daily Corpus 数据集广泛应用于自然语言处理领域,特别是在文本挖掘和语言模型训练中。研究者利用该数据集进行词频分析、句法解析以及情感分析等任务。通过分析苹果日报的文本内容,可以深入理解中文新闻语言的特点和演变趋势。
衍生相关工作
基于 Apple Daily Corpus 数据集,许多经典的自然语言处理工作得以展开。例如,研究者开发了针对中文新闻的特定语言模型,提升了中文文本分类和情感分析的准确性。此外,该数据集还支持了多项关于新闻语言演变和媒体影响力的研究。
数据集最近研究
最新研究方向
近年来,Apple Daily Corpus作为一份涵盖2002年至2021年苹果日报文章的语料库,在自然语言处理(NLP)领域引起了广泛关注。研究者们利用该数据集进行文本挖掘、情感分析以及新闻事件的时间序列分析,探索媒体语言的变化趋势及其对社会舆论的影响。特别是在中文语境下,该数据集为研究新闻文本的语义结构、关键词提取以及新闻标题生成提供了丰富的素材。此外,随着深度学习技术的发展,该数据集也被用于训练和评估语言模型,以提升中文新闻文本的自动摘要和分类能力。这些研究不仅推动了NLP技术的进步,还为新闻传播学、社会学等跨学科研究提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作