pstuerner/ukraine-liveblog
收藏Hugging Face2023-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pstuerner/ukraine-liveblog
下载链接
链接失效反馈官方服务:
资源简介:
“ukraine-liveblog”数据集包含在德国新闻网站tagesschau.de的实时博客上发布的新闻文章集合。该数据集涵盖了2022年2月至2023年2月期间发布的每一篇关于乌克兰战争的新闻文章。数据集的语言为德语,特征为text,数据类型为字符串。数据集分为训练集和测试集,训练集包含15083个实例,测试集包含1676个实例。数据集的创建动机包括收集和分析关于乌克兰冲突的信息,了解德国媒体如何报道该冲突,并为NLP爱好者提供资源以在额外的德语数据上微调GPT2。数据集来源于tagesschau.de关于乌克兰战争的实时博客,数据收集和规范化过程使用了自定义的Python脚本,该脚本利用了newspaper和beautifulsoup4库。文章的撰写者为Tagesschau的记者。
提供机构:
pstuerner
原始信息汇总
数据集概述
数据集名称
- 名称: German Articles about the War in Ukraine
数据集特征
- 特征:
text: 文章主体,德语,字符串类型。
数据集结构
- 数据实例:
- 示例格式: JSON,包含标题和文本。
- 数据字段:
text: 文章主要内容。
- 数据分割:
train: 包含15,083个实例,占90%。validation: 包含1,676个实例,占10%。
数据集大小
- 下载大小: 7,404,260字节
- 数据集大小: 12,971,537字节
任务类别
- 任务: 文本生成
语言
- 语言: 德语
数据集来源
- 来源: 德国新闻网站tagesschau.de的乌克兰战争实时博客
- 数据收集: 使用Python脚本从实时博客中抓取数据
- 源语言生产者: Tagesschau记者
数据集使用注意事项
- 个人和敏感信息: 数据集不包含任何个人或敏感信息,所有信息均为公开可用。



