five

googlenews

收藏
Hugging Face2024-12-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/oitnews/googlenews
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置版本,每个版本对应一个特定的日期。每个版本的数据集包含文档的唯一标识(ids)、文档内容(document)以及元数据(metadatas),元数据包括作者、内容、国家、描述、图片、链接、优先级、发布日期、来源、摘要和标题等信息。每个配置版本的数据集只有一个训练集,且每个训练集只有一个样本。

This dataset contains multiple configuration versions, each corresponding to a specific date. Each configuration version's dataset includes the unique identifiers (ids) of documents, the document content, and metadata, which covers information such as author, content, country, description, images, links, priority, release date, source, abstract, and title. Each configuration version's dataset has only one training set, and each training set contains exactly one sample.
创建时间:
2024-12-11
原始信息汇总

Google News 数据集

概述

该数据集包含多个配置,每个配置对应不同日期的Google新闻数据。每个配置包含一个训练集(train),且每个训练集仅包含一个示例。

配置详情

配置 2012-03-28

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 12756
      • num_examples: 1
  • 下载大小: 16651
  • 数据集大小: 12756

配置 2016-05-30

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 5423
      • num_examples: 1
  • 下载大小: 12269
  • 数据集大小: 5423

配置 2016-05-31

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 10536
      • num_examples: 1
  • 下载大小: 14762
  • 数据集大小: 10536

配置 2017-01-20

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 3396
      • num_examples: 1
  • 下载大小: 28528
  • 数据集大小: 3396

配置 2017-06-23

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 9012
      • num_examples: 1
  • 下载大小: 14370
  • 数据集大小: 9012

配置 2017-10-10

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 798
      • num_examples: 1
  • 下载大小: 10842
  • 数据集大小: 798

配置 2017-10-11

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 798
      • num_examples: 1
  • 下载大小: 8415
  • 数据集大小: 798

配置 2018-04-21

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 5017
      • num_examples: 1
  • 下载大小: 28439
  • 数据集大小: 5017

配置 2018-05-05

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 2242
      • num_examples: 1
  • 下载大小: 15330
  • 数据集大小: 2242

配置 2018-08-06

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 964
      • num_examples: 1
  • 下载大小: 9282
  • 数据集大小: 964

配置 2019-01-22

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 1187
      • num_examples: 1
  • 下载大小: 10401
  • 数据集大小: 1187

配置 2019-02-18

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 6710
      • num_examples: 1
  • 下载大小: 15663
  • 数据集大小: 6710

配置 2019-03-11

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 7668
      • num_examples: 1
  • 下载大小: 16110
  • 数据集大小: 7668

配置 2019-04-11

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 413
      • num_examples: 1
  • 下载大小: 6506
  • 数据集大小: 413

配置 2019-06-19

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 7297
      • num_examples: 1
  • 下载大小: 17751
  • 数据集大小: 7297

配置 2019-09-11

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 1169
      • num_examples: 1
  • 下载大小: 13435
  • 数据集大小: 1169

配置 2019-10-02

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 1151
      • num_examples: 1
  • 下载大小: 13249
  • 数据集大小: 1151

配置 2019-12-04

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 7689
      • num_examples: 1
  • 下载大小: 12968
  • 数据集大小: 7689

配置 2020-02-19

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 924
      • num_examples: 1
  • 下载大小: 9073
  • 数据集大小: 924

配置 2020-03-07

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 11164
      • num_examples: 1
  • 下载大小: 18669
  • 数据集大小: 11164

配置 2020-09-18

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 9948
      • num_examples: 1
  • 下载大小: 14891
  • 数据集大小: 9948

配置 2021-03-09

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 3853
      • num_examples: 1
  • 下载大小: 22944
  • 数据集大小: 3853

配置 2021-05-06

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 5916
      • num_examples: 1
  • 下载大小: 12934
  • 数据集大小: 5916

配置 2021-07-11

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 1040
      • num_examples: 1
  • 下载大小: 9626
  • 数据集大小: 1040

配置 2022-01-11

  • 特征:
    • ids: string
    • document: string
    • metadatas:
      • author: string
      • content: string
      • country: string
      • description: string
      • image: string
      • link: string
      • priority: string
      • published: string
      • source: string
      • summary: string
      • title: string
  • 分割:
    • train:
      • num_bytes: 1003
      • num_examples: 1
  • 下载大小: 9482
  • 数据集大小: 1
搜集汇总
数据集介绍
main_image_url
构建方式
GoogleNews数据集的构建基于多个特定日期的配置,每个配置包含一个训练集,数据量较小,通常为1个样本。数据集的特征包括文档ID、文档内容以及丰富的元数据,如作者、国家、描述、图片链接、优先级、发布时间、来源、摘要和标题等。这些元数据为新闻内容的多样性和信息丰富性提供了坚实的基础。
特点
GoogleNews数据集的显著特点在于其多样化的元数据结构,涵盖了新闻的多个维度,如作者、国家、描述、图片链接等,为研究者提供了丰富的分析视角。此外,数据集的时间跨度较大,从2012年到2022年,涵盖了多个重要事件,使得该数据集在时间序列分析和新闻趋势研究中具有重要价值。
使用方法
使用GoogleNews数据集时,研究者可以通过访问HuggingFace平台获取数据,并根据需要选择特定日期的配置进行分析。数据集的结构清晰,便于进行文本分类、情感分析、新闻推荐等多种自然语言处理任务。通过结合元数据,研究者还可以进行更深入的语义分析和跨领域研究。
背景与挑战
背景概述
GoogleNews数据集是由多个时间点的Google新闻文章组成的数据集,涵盖了从2012年到2022年的新闻内容。该数据集包含了丰富的元数据信息,如作者、国家、描述、图片链接、发布时间等,为新闻分析、自然语言处理和信息检索等领域提供了宝贵的资源。其核心研究问题在于如何利用这些新闻数据进行文本分类、情感分析、事件检测等任务,从而推动新闻领域的智能化发展。
当前挑战
GoogleNews数据集在构建过程中面临诸多挑战。首先,新闻数据的时效性要求数据集必须定期更新,以确保其与当前事件的相关性。其次,新闻内容的多样性和复杂性使得数据清洗和预处理工作变得尤为重要,如何有效去除噪声和冗余信息是一个关键问题。此外,新闻数据的隐私和版权问题也是构建过程中需要谨慎处理的挑战,确保数据的合法性和合规性至关重要。
常用场景
经典使用场景
GoogleNews数据集的经典使用场景主要集中在新闻文本的分析与处理领域。研究者们常利用该数据集进行新闻内容的分类、情感分析、主题建模以及事件检测等任务。通过分析新闻文章的标题、摘要和内容,可以有效提取出关键信息,帮助理解新闻事件的背景和发展趋势。
实际应用
在实际应用中,GoogleNews数据集被广泛用于新闻推荐系统、舆情监控和媒体分析等领域。通过分析新闻内容和用户行为,系统可以为用户提供个性化的新闻推荐,提升用户体验。同时,该数据集也为政府和企业提供了重要的舆情监控工具,帮助其及时了解公众对特定事件的反应。
衍生相关工作
基于GoogleNews数据集,研究者们开发了多种新闻分析工具和模型,推动了新闻文本处理技术的发展。例如,有研究利用该数据集进行新闻事件的时间线构建,揭示事件的发展脉络;还有研究通过分析新闻文本的情感倾向,预测公众对特定事件的态度变化。这些衍生工作不仅丰富了新闻分析的方法论,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作