RealNews
收藏魔搭社区2025-12-13 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/RealNews
下载链接
链接失效反馈官方服务:
资源简介:
displayName: RealNews
license:
- Apache 2.0
taskTypes:
- Natural Language Generation
- Fake News Detection
- Language Modelling
- Pretrained Language Models
mediaTypes:
- Text
- Web
labelTypes:
- English Corpus
tags:
- attrs: null
id: 167
name:
en: Text
zh: 文本
publisher:
- University of Washington
- Allen Institute for Artificial Intelligence
publishDate: '2020-11-11'
publishUrl: https://rowanzellers.com/grover/
paperUrl: https://arxiv.org/pdf/1905.12616v3.pdf
---
# 数据集介绍
## 简介
RealNews是来自Common Crawl的大量新闻文章。数据是从通用爬网中抓取的,仅限于Google新闻索引的5000新闻域。作者使用报纸Python库从每篇文章中提取正文和元数据。从2016年12月到2019年3月的常见爬网转储的新闻被用作训练数据; 2019年4月转储2019年4月发表的文章被用于评估。重复数据删除后,RealNews在没有压缩的情况下120千兆字节。
## 引文
```
@article{zellers2019defending,
title={Defending against neural fake news},
author={Zellers, Rowan and Holtzman, Ari and Rashkin, Hannah and Bisk, Yonatan and Farhadi, Ali and Roesner, Franziska and Choi, Yejin},
journal={Advances in neural information processing systems},
volume={32},
year={2019}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: 真实新闻(RealNews)
license:
- Apache 2.0
taskTypes:
- 自然语言生成
- 虚假新闻检测
- 语言建模
- 预训练语言模型
mediaTypes:
- 文本
- 网页
labelTypes:
- 英语语料库
tags:
- attrs: null
id: 167
name:
en: Text
zh: 文本
publisher:
- 华盛顿大学
- 艾伦人工智能研究所
publishDate: '2020-11-11'
publishUrl: https://rowanzellers.com/grover/
paperUrl: https://arxiv.org/pdf/1905.12616v3.pdf
---
# 数据集介绍
## 简介
RealNews(真实新闻)是源自Common Crawl的海量新闻文章数据集。该数据集通过通用网络爬取获取,仅覆盖谷歌新闻索引内的5000个新闻域名。研究人员借助Newspaper Python库从每篇文章中提取正文内容与元数据。训练数据采用2016年12月至2019年3月的Common Crawl转储新闻;评估数据则使用2019年4月转储的、发布于2019年4月的新闻文章。经去重处理后,未压缩的RealNews数据集总容量达120吉字节。
## 引文
@article{zellers2019defending,
title={抵御神经虚假新闻},
author={Zellers, Rowan and Holtzman, Ari and Rashkin, Hannah and Bisk, Yonatan and Farhadi, Ali and Roesner, Franziska and Choi, Yejin},
journal={神经信息处理系统进展},
volume={32},
year={2019}
}
## 下载数据集
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-16



