jonathancsci/liberal-and-conservative-news
收藏Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jonathancsci/liberal-and-conservative-news
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自美国自由派和保守派新闻媒体的文章。数据集中的文章主要发布于2023年3月至2024年3月之间,但也包含一些更早的文章。数据集提供了CSV文件和经过预处理的TXT文件,CSV文件包含每篇文章的URL、标题和正文,而TXT文件则将这些信息拼接在一起,用于训练文本生成模型。数据清洗过程中移除了不贡献于文章内容的重复字符串。数据集的许可证为CC0-1.0。
该数据集包含来自美国自由派和保守派新闻媒体的文章。数据集中的文章主要发布于2023年3月至2024年3月之间,但也包含一些更早的文章。数据集提供了CSV文件和经过预处理的TXT文件,CSV文件包含每篇文章的URL、标题和正文,而TXT文件则将这些信息拼接在一起,用于训练文本生成模型。数据清洗过程中移除了不贡献于文章内容的重复字符串。数据集的许可证为CC0-1.0。
提供机构:
jonathancsci
原始信息汇总
数据集概述
数据集名称
- liberal-and-conservative-news
数据集内容
- 包含来自美国自由派和保守派新闻媒体的报道文章。
- 大多数文章发表于2023年3月至2024年3月之间。
文件描述
-
liberal_news_articles.csv
- 包含16,217篇文章,来源包括CNN、MSNBC和The New York Times。
- 数据字段:url, headline, body。
-
liberal.txt
- 包含liberal_news_articles.csv中的headline和body字段内容,共13,840,860字。
-
conservative_news_articles.csv
- 包含26,063篇文章,来源包括FOX、The American Conservative和The Washington Times。
- 数据字段:url, headline, body。
-
conservative.txt
- 包含conservative_news_articles.csv中的headline和body字段内容,共17,358,558字。
数据清洗
-
liberal.txt
- 移除了以下重复字符串:
CNN -- , CNN -- , | CNN, | CNN Politics, | CNN Business
- 移除了以下重复字符串:
-
conservative.txt
- 移除了以下重复字符串:
- 一系列与FOX新闻APP下载相关的字符串。
- 移除了以下重复字符串:
许可证
- 本数据集遵循
CC0-1.0许可,置于公共领域。



