five

pstuerner/ukraine-liveblog

收藏
Hugging Face2023-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pstuerner/ukraine-liveblog
下载链接
链接失效反馈
官方服务:
资源简介:
“ukraine-liveblog”数据集包含在德国新闻网站tagesschau.de的实时博客上发布的新闻文章集合。该数据集涵盖了2022年2月至2023年2月期间发布的每一篇关于乌克兰战争的新闻文章。数据集的语言为德语,特征为text,数据类型为字符串。数据集分为训练集和测试集,训练集包含15083个实例,测试集包含1676个实例。数据集的创建动机包括收集和分析关于乌克兰冲突的信息,了解德国媒体如何报道该冲突,并为NLP爱好者提供资源以在额外的德语数据上微调GPT2。数据集来源于tagesschau.de关于乌克兰战争的实时博客,数据收集和规范化过程使用了自定义的Python脚本,该脚本利用了newspaper和beautifulsoup4库。文章的撰写者为Tagesschau的记者。
提供机构:
pstuerner
原始信息汇总

数据集概述

数据集名称

  • 名称: German Articles about the War in Ukraine

数据集特征

  • 特征:
    • text: 文章主体,德语,字符串类型。

数据集结构

  • 数据实例:
    • 示例格式: JSON,包含标题和文本。
  • 数据字段:
    • text: 文章主要内容。
  • 数据分割:
    • train: 包含15,083个实例,占90%。
    • validation: 包含1,676个实例,占10%。

数据集大小

  • 下载大小: 7,404,260字节
  • 数据集大小: 12,971,537字节

任务类别

  • 任务: 文本生成

语言

  • 语言: 德语

数据集来源

  • 来源: 德国新闻网站tagesschau.de的乌克兰战争实时博客
  • 数据收集: 使用Python脚本从实时博客中抓取数据
  • 源语言生产者: Tagesschau记者

数据集使用注意事项

  • 个人和敏感信息: 数据集不包含任何个人或敏感信息,所有信息均为公开可用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作