Article Bias Prediction
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Article_Bias_Prediction
下载链接
链接失效反馈官方服务:
资源简介:
文章-偏差-预测数据集 从 www.allsides.com 爬取的文章可在 ./data 文件夹中找到,以及不同的评估拆分。该数据集共包含 37,554 篇文章。每篇文章都以 JSON 对象的形式存储在 ./data/jsons 目录中,并包含以下字段: 1. ID:字母数字标识符。 2. topic:文章中讨论的话题。 3. source:文章来源的名称(例如:纽约时报) 4. source_url:来源主页的 URL(例如:www.nytimes.com) 5. url:实际文章的链接。 6. 日期:文章的发表日期。 7. authors:文章作者的逗号分隔列表。 8. 标题:文章的标题。 9. content_original:文章的原始正文,由报纸3k Python库返回。 10. 内容:处理和标记化的内容,用作不同模型的输入。 11.bias_text:文章政治偏见标注的标签(左、中、右)。 12. 偏见:文章政治偏见的数字编码(0、1或2)。 ./data/splits 目录包含两种类型的拆分,如本文所述:随机和基于媒体。对于这些类型中的每一种,我们提供包含属于每个集合的文章 ID 的训练、验证和测试文件,以及它们的数字偏差标签。代码维护中。即将上市。引文@inproceedings{baly2020we,作者 = {Baly,Ramy 和 Da San Martino,Giovanni 和 Glass,James 和 Nakov,Preslav},标题 = {我们可以检测你的偏见:预测新闻文章的政治意识形态},书名 = {Proceedings 2020 年自然语言处理经验方法会议 (EMNLP)},系列 = {EMNLP~'20},NOmonth = {November},year = {2020} pages = {4982--4991},NOpublisher = {Association for计算语言学} }
提供机构:
OpenDataLab
创建时间:
2022-09-01
搜集汇总
数据集介绍

背景与挑战
背景概述
Article Bias Prediction数据集包含从allsides.com爬取的37,554篇文章,每篇文章以JSON格式存储,涵盖话题、来源、内容及政治偏见标签等字段,并提供了随机和基于媒体的评估拆分。该数据集由卡塔尔计算研究所和麻省理工大学于2020年发布,旨在支持新闻文章政治意识形态的预测研究。
以上内容由遇见数据集搜集并总结生成



