five

RealTimeData/bbc_news_alltime

收藏
Hugging Face2025-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RealTimeData/bbc_news_alltime
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个时间段(2017-01至2020-09)的配置文件,每个配置文件包含标题、发布日期、作者、描述、部分、内容、链接和顶部图片等特征。每个配置文件还包含一个训练集,并提供了训练集的字节数、样本数、下载大小和数据集大小。

The dataset contains multiple configurations (config_name) corresponding to different time periods (e.g., 2017-01 to 2020-09). Each configuration includes features such as title, published date, authors, description, section, content, link, and top image. Each configuration also includes a training set (train) with details on the number of bytes (num_bytes), number of examples (num_examples), download size (download_size), and dataset size (dataset_size).
提供机构:
RealTimeData
原始信息汇总

数据集概述

数据集配置信息

2017-01

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 5574520
      • 样本数: 1688
  • 下载大小: 0
  • 数据集大小: 5574520

2017-02

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 5013358
      • 样本数: 1469
  • 下载大小: 2533589
  • 数据集大小: 5013358

2017-03

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 3454177
      • 样本数: 721
  • 下载大小: 1456354
  • 数据集大小: 3454177

2017-04

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 3759656
      • 样本数: 807
  • 下载大小: 1573085
  • 数据集大小: 3759656

2017-05

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 3656616
      • 样本数: 756
  • 下载大小: 1577606
  • 数据集大小: 3656616

2017-06

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4546752
      • 样本数: 1106
  • 下载大小: 2055760
  • 数据集大小: 4546752

2017-07

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4669023
      • 样本数: 1139
  • 下载大小: 2220913
  • 数据集大小: 4669023

2017-08

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4529387
      • 样本数: 1113
  • 下载大小: 2053558
  • 数据集大小: 4529387

2017-09

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4950651
      • 样本数: 1199
  • 下载大小: 2406134
  • 数据集大小: 4950651

2017-10

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4900443
      • 样本数: 1187
  • 下载大小: 2344203
  • 数据集大小: 4900443

2017-11

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 5141607
      • 样本数: 1443
  • 下载大小: 2535360
  • 数据集大小: 5141607

2017-12

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4273797
      • 样本数: 1294
  • 下载大小: 2074041
  • 数据集大小: 4273797

2018-01

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4789841
      • 样本数: 1323
  • 下载大小: 0
  • 数据集大小: 4789841

2018-02

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4174594
      • 样本数: 1223
  • 下载大小: 1922883
  • 数据集大小: 4174594

2018-03

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4550223
      • 样本数: 1280
  • 下载大小: 2193369
  • 数据集大小: 4550223

2018-04

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4646713
      • 样本数: 1328
  • 下载大小: 0
  • 数据集大小: 4646713

2018-05

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4549377
      • 样本数: 1334
  • 下载大小: 0
  • 数据集大小: 4549377

2018-06

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4416735
      • 样本数: 1189
  • 下载大小: 2050298
  • 数据集大小: 4416735

2018-07

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 5677193
      • 样本数: 1496
  • 下载大小: 0
  • 数据集大小: 5677193

2018-08

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4346176
      • 样本数: 1253
  • 下载大小: 2051252
  • 数据集大小: 4346176

2018-09

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4299146
      • 样本数: 1277
  • 下载大小: 2067971
  • 数据集大小: 4299146

2018-10

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4207852
      • 样本数: 1249
  • 下载大小: 1992203
  • 数据集大小: 4207852

2018-11

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4390888
      • 样本数: 1290
  • 下载大小: 2117715
  • 数据集大小: 4390888

2018-12

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 3725672
      • 样本数: 1138
  • 下载大小: 1703129
  • 数据集大小: 3725672

2019-01

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4299425
      • 样本数: 1240
  • 下载大小: 2076680
  • 数据集大小: 4299425

2019-02

  • 特征:
    • title: string
    • published_date: string
    • authors: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4403481
      • 样本数: 1214
  • 下载大小: 2138193
  • 数据集大小: 4403481

2019-03

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4758117
      • 样本数: 1333
  • 下载大小: 2336195
  • 数据集大小: 4758117

2019-04

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4691658
      • 样本数: 1280
  • 下载大小: 2280145
  • 数据集大小: 4691658

2019-05

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4809409
      • 样本数: 1369
  • 下载大小: 2423627
  • 数据集大小: 4809409

2019-06

  • 特征:
    • title: string
    • published_date: string
    • authors: sequence: string
    • description: string
    • section: string
    • content: string
    • link: string
    • top_image: string
  • 分割:
    • train:
      • 字节数: 4971344
      • 样本数: 1348
  • 下载大小: 2439729
  • 数据集大小: 4971344

2019-07

  • 特征:
    • title: string
搜集汇总
数据集介绍
main_image_url
构建方式
在新闻文本挖掘领域,bbc_news_alltime数据集通过系统化采集BBC新闻网站2017年至2020年的月度内容构建而成。该过程采用网络爬虫技术,按月份划分配置单元,自动提取每篇新闻的结构化字段,包括标题、发布日期、作者列表、摘要、栏目分类、正文内容、原文链接及题图地址。数据以标准化格式存储,每月独立存档,确保了时间序列的完整性与原始信息的保真度。
特点
该数据集展现了新闻语料库的典型特征,涵盖政治、经济、文化等多领域内容,具有丰富的时间跨度与主题多样性。其核心优势在于结构化的元数据设计,每篇新闻均附带作者、栏目及摘要信息,便于进行细粒度分析。数据规模庞大,每月样本量介于700至1500篇之间,文本质量较高,语言风格规范,适合用于时序分析、主题建模及自然语言处理任务。
使用方法
研究者可通过HuggingFace平台加载该数据集,利用其按月划分的配置单元灵活选取特定时间段的数据。典型应用包括新闻摘要生成、情感分析、事件追踪等自然语言处理任务。数据字段可直接用于模型训练,例如将标题与正文作为输入输出对,或利用栏目标签进行文本分类。需注意作者字段存在字符串与序列两种格式,预处理时需统一处理以保持一致性。
背景与挑战
背景概述
在自然语言处理领域,大规模新闻文本数据集对于推动文本分类、情感分析及信息抽取等任务的发展具有关键作用。RealTimeData/bbc_news_alltime数据集由RealTimeData机构于2017年至2020年间构建,旨在提供英国广播公司(BBC)新闻文章的全面集合,涵盖标题、发布日期、作者、描述、内容、栏目分类及配图链接等结构化特征。该数据集的核心研究问题聚焦于如何利用时序性新闻数据支持多模态分析与跨领域文本挖掘,其丰富的元数据为研究新闻传播动态、内容演化模式及媒体偏见检测提供了重要基础,对计算新闻学与数字人文研究产生了深远影响。
当前挑战
该数据集旨在解决新闻文本分析中的领域挑战,包括跨栏目分类的语义模糊性、时序演化下的主题漂移问题,以及多作者写作风格差异导致的模型泛化困难。在构建过程中,挑战主要源于数据采集的异构性:不同月份的文章在作者字段格式上存在序列与字符串类型的不一致,可能影响数据清洗与整合;同时,部分月份的下载尺寸为零,暗示数据缺失或获取障碍,需额外验证完整性。此外,新闻内容的动态更新与版权限制也为大规模可持续收集带来操作复杂性。
常用场景
经典使用场景
在自然语言处理领域,新闻文本数据集常被用于文本分类任务的基准测试。bbc_news_alltime数据集以其丰富的新闻条目和明确的栏目划分,为研究者提供了理想的实验平台。该数据集涵盖了政治、经济、科技等多个主题,使得模型能够在多类别分类场景中得到充分训练与评估,其时间跨度特性还支持时序分析研究。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作。例如,基于注意力机制的深度分类模型被提出以提升多标签新闻分类的准确性。同时,结合时序信息的动态主题建模方法得以发展,用于分析新闻趋势演变。这些工作不仅丰富了自然语言处理的技术体系,也为后续的跨模态新闻分析奠定了基础。
数据集最近研究
最新研究方向
在新闻文本挖掘领域,BBC新闻数据集作为权威的英文语料库,近年来被广泛应用于自然语言处理的前沿探索。随着大语言模型与多模态学习的兴起,该数据集因其结构化的标题、内容与图像信息,成为研究新闻摘要生成、事件时序分析与跨模态表示学习的热点资源。特别是在全球重大事件如新冠疫情与气候变化的背景下,学者们利用其时间序列特性追踪舆论演变,推动可解释人工智能在新闻可信度评估中的应用,对促进信息传播的透明性与社会计算发展具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作