valurank/PoliticalBias_AllSides_Txt
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/valurank/PoliticalBias_AllSides_Txt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约20,000篇文章,这些文章由allsides.com的编辑标记为左派、右派或中间派。数据集的语言为英语,结构上分为三个文件夹,每个文件夹包含多个文本文件,每个文本文件代表一篇文章的正文。数据来源是通过Mozilla的Readability工具从URL中抓取的。文章是由新闻编辑手动标注的,他们试图从每个主题的左派、右派和中间派中选择具有代表性的文章,因此数据集应该是平衡的,即左派、右派和中间派的文章覆盖相同的主题,并且每类文章的数量大致相同。
提供机构:
valurank
原始信息汇总
数据集概述
数据集名称
news-12factor
许可证
- other
语言
- 英语
多语言性
- 单语种
任务类别
- 分类
任务ID
- classification
数据集描述
约20,000篇文章,由allsides.com的编辑标注为左、右或中。
数据集结构
数据集包含3个文件夹,每个文件夹中有多个文本文件。每个文本文件代表一篇文章的主体内容。
源数据
数据是通过https://github.com/mozilla/readability进行URL抓取获得的。
标注
文章由新闻编辑手动标注,旨在从每个文章主题的左、右和中选择代表性文章。因此,数据集通常是平衡的,左/右/中文章涵盖相同的话题,并且在每个类别中大约有相同数量的文章。



