five

Fake.Br Corpus

收藏
github2020-09-24 更新2024-05-31 收录
下载链接:
https://github.com/rafael1717y/Fake.br-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Fake.Br Corpus是一个包含巴西葡萄牙语的真实和虚假新闻对齐的数据集。该数据集包含完整的文本和大小标准化文本两种版本,每种版本都分为真实新闻和虚假新闻两个部分,并附带各自的元数据信息。

The Fake.Br Corpus is a dataset comprising aligned real and fake news in Brazilian Portuguese. This dataset includes two versions: one with complete texts and another with size-normalized texts. Each version is divided into sections of real news and fake news, accompanied by their respective metadata.
创建时间:
2020-09-24
原始信息汇总

数据集概述

数据集名称

  • Fake.Br Corpus

数据集结构

  • full_texts 文件夹

    • fake 文件夹: 包含收集的假新闻。
    • true 文件夹: 包含收集的真实新闻。
    • fake-meta-information 文件夹: 包含每条假新闻的元数据信息。
    • true-meta-information 文件夹: 包含每条真实新闻的元数据信息。

    元数据信息文件格式(逐行):

    author link category date of publication number of tokens number of words without punctuation number of types number of links inside the news number of words in upper case number of verbs number of subjuntive and imperative verbs number of nouns number of adjectives number of adverbs number of modal verbs (mainly auxiliary verbs) number of singular first and second personal pronouns number of plural first personal pronouns number of pronouns pausality number of characters average sentence length average word length percentage of news with spelling errors emotiveness diversity

  • size_normalized_texts 文件夹

    • 包含截断的文本,其中每对假-真新闻中较长文本被截断(按单词数量)至较短文本的大小。此版本的数据集可用于避免机器学习实验中的偏差。

引用信息

  • 使用该数据集时,请引用以下文献:
    • PROPOR 2018会议论文

      Monteiro R.A., Santos R.L.S., Pardo T.A.S., de Almeida T.A., Ruiz E.E.S., Vale O.A. (2018) Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results. In: Villavicencio A. et al. (eds) Computational Processing of the Portuguese Language. PROPOR 2018. Lecture Notes in Computer Science, vol 11122. Springer, Cham

    • Expert Systems with Applications论文

      Silva, Renato M., Santos R.L.S, Almeida T.A, and Pardo T.A.S. (2020) "Towards Automatically Filtering Fake News in Portuguese." Expert Systems with Applications, vol 146, p. 113199.

搜集汇总
数据集介绍
main_image_url
构建方式
Fake.Br Corpus的构建过程基于对葡萄牙语新闻的广泛收集与分类。数据集分为两个主要文件夹:`full_texts`和`size_normalized_texts`。`full_texts`文件夹中包含了从原始网站收集的完整新闻文本,进一步细分为`fake`和`true`两个子文件夹,分别存储虚假新闻和真实新闻。每个新闻文件均附有详细的元数据信息,涵盖作者、发布日期、词汇统计等多个维度。`size_normalized_texts`文件夹则对新闻文本进行了长度归一化处理,确保每对虚假与真实新闻的文本长度一致,以减少机器学习实验中的偏差。
使用方法
使用Fake.Br Corpus时,用户可通过`full_texts`文件夹访问完整的新闻文本及其元数据信息,进行详细的语言学分析或虚假新闻检测研究。`size_normalized_texts`文件夹中的归一化文本则适用于需要文本长度一致的实验场景,如机器学习模型的训练与评估。用户可通过简单的文件命名规则快速匹配虚假新闻与真实新闻对,进行对比分析或模型训练。在使用该数据集时,建议引用相关文献,以尊重数据集作者的贡献。
背景与挑战
背景概述
Fake.Br Corpus是由巴西圣保罗大学的研究团队于2018年创建的一个专注于葡萄牙语假新闻检测的数据集。该数据集由Rafael A. Monteiro、Roney L. S. Santos等研究人员主导开发,旨在为葡萄牙语假新闻的自动检测提供高质量的数据支持。数据集包含真实新闻和虚假新闻的文本对,并附有详细的元数据信息,如作者、发布日期、词汇统计等。该数据集在PROPOR 2018会议上首次发布,并在后续研究中被广泛应用于自然语言处理和机器学习领域,特别是在假新闻检测和文本分类任务中展现了重要的研究价值。
当前挑战
Fake.Br Corpus在构建过程中面临了多方面的挑战。首先,假新闻的收集和标注需要高度的准确性,以确保数据集的可靠性和有效性。研究人员必须从大量网络资源中筛选出真实的假新闻样本,并与真实新闻进行配对,这一过程耗时且复杂。其次,文本的长度差异可能导致机器学习模型的偏差,因此数据集提供了经过长度归一化的版本,以减少这种偏差。此外,葡萄牙语的语法和词汇特性使得文本分析和特征提取更具挑战性,特别是在处理动词时态、代词使用和情感表达等方面。这些挑战不仅影响了数据集的构建,也为后续的假新闻检测算法设计带来了复杂性。
常用场景
经典使用场景
Fake.Br Corpus 数据集在自然语言处理领域中被广泛用于虚假新闻检测的研究。通过提供葡萄牙语的真实新闻和虚假新闻的对比文本,该数据集为研究者提供了一个标准化的实验平台,用于开发和测试自动检测虚假新闻的算法。特别是在机器学习和深度学习模型的训练过程中,Fake.Br Corpus 提供了丰富的文本特征和元数据,使得模型能够更准确地识别虚假新闻的语言模式。
解决学术问题
Fake.Br Corpus 解决了虚假新闻检测领域中的关键问题,即缺乏高质量、结构化的葡萄牙语新闻数据集。通过提供真实新闻和虚假新闻的对比文本及其详细的元数据,该数据集使得研究者能够深入分析虚假新闻的语言特征,并开发出更有效的检测算法。这不仅推动了葡萄牙语自然语言处理技术的发展,还为其他语言的虚假新闻检测研究提供了宝贵的参考。
实际应用
在实际应用中,Fake.Br Corpus 被广泛用于新闻媒体、社交媒体平台和政府机构的虚假新闻检测系统。通过利用该数据集训练的模型,这些机构能够自动识别和过滤虚假新闻,减少虚假信息对公众的影响。此外,该数据集还被用于教育领域,帮助新闻学学生和研究者更好地理解虚假新闻的传播机制和语言特征。
数据集最近研究
最新研究方向
近年来,随着虚假新闻在全球范围内的传播日益猖獗,Fake.Br Corpus作为葡萄牙语虚假新闻研究的重要数据集,受到了广泛关注。该数据集不仅提供了完整的虚假新闻和真实新闻文本,还包含了丰富的元数据信息,如作者、发布日期、词汇特征等,为研究者提供了多维度的分析基础。当前,基于该数据集的研究主要集中在自然语言处理(NLP)领域,特别是虚假新闻自动检测模型的开发与优化。通过机器学习和深度学习技术,研究者们致力于从文本特征、情感分析、语言风格等多个角度识别虚假新闻。此外,随着社交媒体平台的普及,虚假新闻的传播路径和影响力分析也成为热点研究方向。Fake.Br Corpus的发布为这些研究提供了宝贵的资源,推动了葡萄牙语虚假新闻检测技术的发展,并为全球虚假新闻治理提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作