five

felixludos/babel-briefings

收藏
Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/felixludos/babel-briefings
下载链接
链接失效反馈
官方服务:
资源简介:
Babel Briefings新闻标题数据集包含4,719,199条新闻标题,涵盖30种不同语言,收集时间为2020年8月8日至2021年11月29日。数据通过News API收集,每个标题以JSON格式存储,包含标题、描述、内容、作者、来源、URL、发布时间等信息。非英语文章的内容通过Google Translate翻译成英语。数据集按地理位置分为54个JSON文件,每个文件包含该位置首次出现的所有唯一标题。

Babel Briefings新闻标题数据集包含4,719,199条新闻标题,涵盖30种不同语言,收集时间为2020年8月8日至2021年11月29日。数据通过News API收集,每个标题以JSON格式存储,包含标题、描述、内容、作者、来源、URL、发布时间等信息。非英语文章的内容通过Google Translate翻译成英语。数据集按地理位置分为54个JSON文件,每个文件包含该位置首次出现的所有唯一标题。
提供机构:
felixludos
原始信息汇总

Babel Briefings News Headlines Dataset Summary

数据集概述

  • 名称: Babel Briefings News Headlines Dataset
  • 版本: 1
  • 日期: 30 Oct 2023
  • 收集者: Felix Leeb (Max Planck Institute for Intelligent Systems, Tübingen, Germany)
  • 语言: 包含30种语言,如英语、西班牙语、法语等
  • 任务类别: 文本分类、翻译、零样本分类、特征提取、文本生成
  • 标签: 新闻、标题、商业、科学、技术、体育、健康、娱乐
  • 大小: 4,719,199条新闻标题
  • 收集时间: 2020年8月8日至2021年11月29日
  • 数据格式: 54个JSON文件,每个文件对应一个地区

数据集内容

  • 属性: 每个新闻标题包含多个属性,如标题、描述、内容、作者、来源ID、来源名称、URL、发布时间等
  • 翻译: 非英语文章的信息被翻译成英语,包括标题、描述和内容
  • 实例记录: 记录了每篇文章的具体发布时间和地点

数据集统计

  • 按语言统计: 详细列出了每种语言的文章数量和相关地区
  • 按类别统计: 列出了不同类别的文章数量,如体育、娱乐、商业等
  • 按地区统计: 列出了不同地区的文章数量

许可证

  • 许可证: CC BY-NC-SA 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作