FactNews

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/franciellevargas/FactNews

下载链接

链接失效反馈

官方服务：

资源简介：

FactNews是一个大型的句子级别数据集，包含6,191个根据事实性和媒体偏见定义由AllSides专家标注的句子，用于预测新闻报道的事实性和媒体偏见。

FactNews is a large-scale sentence-level dataset comprising 6,191 sentences annotated by AllSides experts based on factuality and media bias definitions, designed for predicting the factuality and media bias in news reporting.

创建时间：

2022-09-20

原始信息汇总

数据集概述

数据集名称

名称: FactNews
描述: 一个用于预测葡萄牙语新闻事实性和媒体偏见的句子级标注数据集。

数据集内容

标注依据: 根据AllSides提出的新闻事实性和媒体偏见定义进行专家标注。
数据量:
- 总句数: 6,191句
- 事实性句子: 4,242句
- 引用句子: 1,391句
- 偏见句子: 558句
- 新闻故事数: 100个
- 新闻文档数: 300篇

数据集用途

用于评估新闻来源的整体可靠性，通过解决两个文本分类问题：预测新闻报道的句子级事实性和媒体偏见。

数据集特点

实验表明，偏见句子相比事实性句子包含更多单词，且情感色彩更浓。
数据集和基准模型专为巴西葡萄牙语设计，以应对巴西假新闻和政治极化的严重性。

性能指标

媒体偏见预测: 67% (F1-Score)，使用微调的mBert-case模型。
事实性预测: 88% (F1-Score)，使用微调的mBert-case模型。

引用信息

论文标题: Predicting Sentence-Level Factuality of News and Bias of Media Outlets
作者: Vargas, F., Jaidka, K., Pardo, T.A.S., Benevenuto, F.
会议: 14th International Conference on Recent Advances in Natural Language Processing
出版年份: 2023
页码: 1197--1206
出版社: Association for Computational Linguistics (ACL)

数据集来源媒体

Media 1: Folha de São Paulo
Media 2: Estadão
Media 3: O Globo

搜集汇总

数据集介绍

构建方式

在自动化事实核查与新闻可信度验证的背景下，FactNews数据集应运而生，旨在通过大规模数据分析预测新闻事实性和媒体偏见。该数据集由6,191个句子组成，这些句子根据AllSides提出的定义进行了专家标注，涵盖了事实性、引用和偏见三个类别。通过精细的文本分类方法，数据集被用于评估新闻来源的整体可靠性，并展示了偏见句子在词汇数量和情感表达上的显著特征。此外，考虑到巴西在假新闻和政治极化问题上的严重性，以及葡萄牙语研究的不足，该数据集和基线模型也被扩展至巴西葡萄牙语。

特点

FactNews数据集的显著特点在于其精细的句子级别标注和多维度的分类任务。数据集不仅包含了事实性、引用和偏见三个主要类别，还通过对比分析揭示了偏见句子在词汇和情感上的独特特征。此外，数据集的多语言扩展，特别是对巴西葡萄牙语的支持，使其在全球新闻分析领域具有更广泛的应用潜力。实验结果表明，通过微调的mBert-case模型，句子级别的媒体偏见预测达到了67%的F1分数，而事实性预测则达到了88%的F1分数，显示了其在实际应用中的高效性。

使用方法

FactNews数据集主要用于句子级别的事实性和媒体偏见预测任务。用户可以通过加载数据集，利用已标注的句子进行模型训练和验证，特别是在文本分类和情感分析领域。数据集提供了详细的标注信息，包括事实性、引用和偏见等类别，用户可以根据这些信息设计相应的机器学习模型。此外，数据集还支持多语言处理，特别是巴西葡萄牙语，这为跨语言新闻分析提供了便利。通过使用微调的mBert-case模型，用户可以实现高效的事实性和偏见预测，从而提升新闻内容的可信度评估。

背景与挑战

背景概述

在信息爆炸的时代，自动化事实核查与新闻可信度验证成为亟待解决的问题。FactNews数据集由Vargas等人于2023年创建，旨在通过大规模的句子级标注，评估新闻报道的事实性和媒体偏见。该数据集包含6,191个句子，依据AllSides提出的定义进行事实性和偏见标注，涵盖了巴西主要媒体如《Folha de São Paulo》、《Estadão》和《O Globo》。FactNews不仅为新闻事实性预测和媒体偏见分析提供了基准，还针对巴西葡萄牙语的假新闻和政治极化问题，提供了相应的数据和基线模型，推动了该领域的研究进展。

当前挑战

FactNews数据集面临的挑战主要集中在两个方面。首先，句子级的事实性和偏见标注需要高度专业化的知识，确保标注的准确性和一致性。其次，数据集的构建过程中，如何从海量新闻文本中筛选出具有代表性的样本，并进行有效的标注，是一项复杂且耗时的任务。此外，针对巴西葡萄牙语的研究相对匮乏，如何在多语言环境下确保模型的泛化能力，也是该数据集需要克服的难题。最后，如何在保证数据集规模的同时，确保标注的精细度和多样性，是FactNews未来需要进一步探索的方向。

常用场景

经典使用场景

FactNews数据集的经典使用场景主要集中在新闻事实核查与媒体偏见预测领域。通过该数据集，研究者能够对新闻报道中的句子进行细粒度的事实性分析，并评估媒体机构的偏见程度。这种基于句子级别的分析不仅有助于识别新闻报道中的事实与虚构，还能揭示媒体在报道中的立场倾向，从而为大规模自动化事实核查提供了强有力的支持。

实际应用

在实际应用中，FactNews数据集可广泛用于新闻媒体的自动化事实核查系统。通过分析新闻报道中的句子级别事实性与偏见性，该数据集能够帮助媒体机构提升内容的真实性与公正性，从而增强公众对新闻的信任。此外，该数据集还可应用于政治舆情监测、虚假新闻检测等领域，为社会提供更为准确的信息环境。

衍生相关工作

基于FactNews数据集，研究者已开展了一系列相关工作，包括跨语言事实核查、媒体偏见检测模型的优化等。例如，通过微调多语言BERT模型，研究者在该数据集上实现了较高的事实性与偏见性预测准确率。此外，该数据集还激发了针对葡萄牙语新闻的深入研究，推动了跨文化背景下新闻事实核查技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集