five

jonathancsci/liberal-and-conservative-news

收藏
Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jonathancsci/liberal-and-conservative-news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自美国自由派和保守派新闻媒体的文章。数据集中的文章主要发布于2023年3月至2024年3月之间,但也包含一些更早的文章。数据集提供了CSV文件和经过预处理的TXT文件,CSV文件包含每篇文章的URL、标题和正文,而TXT文件则将这些信息拼接在一起,用于训练文本生成模型。数据清洗过程中移除了不贡献于文章内容的重复字符串。数据集的许可证为CC0-1.0。

该数据集包含来自美国自由派和保守派新闻媒体的文章。数据集中的文章主要发布于2023年3月至2024年3月之间,但也包含一些更早的文章。数据集提供了CSV文件和经过预处理的TXT文件,CSV文件包含每篇文章的URL、标题和正文,而TXT文件则将这些信息拼接在一起,用于训练文本生成模型。数据清洗过程中移除了不贡献于文章内容的重复字符串。数据集的许可证为CC0-1.0。
提供机构:
jonathancsci
原始信息汇总

数据集概述

数据集名称

  • liberal-and-conservative-news

数据集内容

  • 包含来自美国自由派和保守派新闻媒体的报道文章。
  • 大多数文章发表于2023年3月至2024年3月之间。

文件描述

  • liberal_news_articles.csv

    • 包含16,217篇文章,来源包括CNN、MSNBC和The New York Times。
    • 数据字段:url, headline, body。
  • liberal.txt

    • 包含liberal_news_articles.csv中的headline和body字段内容,共13,840,860字。
  • conservative_news_articles.csv

    • 包含26,063篇文章,来源包括FOX、The American Conservative和The Washington Times。
    • 数据字段:url, headline, body。
  • conservative.txt

    • 包含conservative_news_articles.csv中的headline和body字段内容,共17,358,558字。

数据清洗

  • liberal.txt

    • 移除了以下重复字符串:
      • CNN -- , CNN -- , | CNN, | CNN Politics, | CNN Business
  • conservative.txt

    • 移除了以下重复字符串:
      • 一系列与FOX新闻APP下载相关的字符串。

许可证

  • 本数据集遵循CC0-1.0许可,置于公共领域。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作