five

Blablablab/mediaStorms

收藏
Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Blablablab/mediaStorms
下载链接
链接失效反馈
官方服务:
资源简介:
该媒体风暴数据集包含了我们论文《When it Rains it Pours: Modeling Media Storms and the News Ecosystem》中识别为媒体风暴的所有新闻文章的元数据和全文描述。对于仅在媒体风暴中识别的新闻文章,使用较小的mediaStormArticles.tsv文件。对于NELA-GT-2020、NELA-GT-2021和NELA-Local中所有带有故事聚类标签的文章,使用较大的storyClusterArticles.tsv.gz文件。

该媒体风暴数据集包含了我们论文《When it Rains it Pours: Modeling Media Storms and the News Ecosystem》中识别为媒体风暴的所有新闻文章的元数据和全文描述。对于仅在媒体风暴中识别的新闻文章,使用较小的mediaStormArticles.tsv文件。对于NELA-GT-2020、NELA-GT-2021和NELA-Local中所有带有故事聚类标签的文章,使用较大的storyClusterArticles.tsv.gz文件。
提供机构:
Blablablab
原始信息汇总

数据集描述

该媒体风暴数据集包含了我们论文《当雨倾盆而下:模拟媒体风暴和新闻生态系统》中所有被识别为媒体风暴的新闻文章的元数据和全文描述。

  • 仅包含被识别为媒体风暴的新闻文章,请使用较小的 mediaStormArticles.tsv 文件。
  • 包含所有来自 NELA-GT-2020、NELA-GT-2021 和 NELA-Local 且带有故事集群标签的文章,请使用较大的 storyClusterArticles.tsv.gz 文件。

数据集创建者

  • 策划者: Ben Litterer, David Jurgens, Dallas Card。原始数据由 NELA-GT-2020、NELA-GT-2021 和 NELA-Local 的创建者策划(相关论文链接如下)。

用途

该数据可用于模拟2020年4月至2021年12月期间的媒体风暴(大规模、普遍、持久的故事)。

数据集结构

数据集字段描述请参考 NELA-GT-2020NELA-GT-2021NELA-local 的文档。全文内容包含在 content 字段中,指示文章参与的媒体风暴的标签在 stormID 字段中。

源数据

该数据集的基础数据来自 NELA-GT-2020NELA-GT-2021NELA-local。我们在这些数据中识别了媒体风暴,并添加了集群标签,指示哪些文章参与了哪些媒体风暴。

  • NELA-GT-2020: https://arxiv.org/abs/2102.04567
  • NELA-GT-2021: https://arxiv.org/abs/2203.05659
  • NELA-Local: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwigm4qdgO-CAxUYkIkEHedwCWcQFnoECA0QAQ&url=https%3A%2F%2Fojs.aaai.org%2Findex.php%2FICWSM%2Farticle%2Fview%2F19379&usg=AOvVaw3BqIHBBqwP-vFutUywo9KW&opi=89978449
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作