felixludos/babel-briefings
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/felixludos/babel-briefings
下载链接
链接失效反馈官方服务:
资源简介:
Babel Briefings新闻标题数据集包含4,719,199条新闻标题,涵盖30种不同语言,收集时间为2020年8月8日至2021年11月29日。数据通过News API收集,每个标题以JSON格式存储,包含标题、描述、内容、作者、来源、URL、发布时间等信息。非英语文章的内容通过Google Translate翻译成英语。数据集按地理位置分为54个JSON文件,每个文件包含该位置首次出现的所有唯一标题。
Babel Briefings新闻标题数据集包含4,719,199条新闻标题,涵盖30种不同语言,收集时间为2020年8月8日至2021年11月29日。数据通过News API收集,每个标题以JSON格式存储,包含标题、描述、内容、作者、来源、URL、发布时间等信息。非英语文章的内容通过Google Translate翻译成英语。数据集按地理位置分为54个JSON文件,每个文件包含该位置首次出现的所有唯一标题。
提供机构:
felixludos
原始信息汇总
Babel Briefings News Headlines Dataset Summary
数据集概述
- 名称: Babel Briefings News Headlines Dataset
- 版本: 1
- 日期: 30 Oct 2023
- 收集者: Felix Leeb (Max Planck Institute for Intelligent Systems, Tübingen, Germany)
- 语言: 包含30种语言,如英语、西班牙语、法语等
- 任务类别: 文本分类、翻译、零样本分类、特征提取、文本生成
- 标签: 新闻、标题、商业、科学、技术、体育、健康、娱乐
- 大小: 4,719,199条新闻标题
- 收集时间: 2020年8月8日至2021年11月29日
- 数据格式: 54个JSON文件,每个文件对应一个地区
数据集内容
- 属性: 每个新闻标题包含多个属性,如标题、描述、内容、作者、来源ID、来源名称、URL、发布时间等
- 翻译: 非英语文章的信息被翻译成英语,包括标题、描述和内容
- 实例记录: 记录了每篇文章的具体发布时间和地点
数据集统计
- 按语言统计: 详细列出了每种语言的文章数量和相关地区
- 按类别统计: 列出了不同类别的文章数量,如体育、娱乐、商业等
- 按地区统计: 列出了不同地区的文章数量
许可证
- 许可证: CC BY-NC-SA 4.0



