Fake.Br Corpus
收藏github2019-08-22 更新2024-05-31 收录
下载链接:
https://github.com/odvieira/Fake.br-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
Fake.Br Corpus是一个包含巴西葡萄牙语编写的真实和虚假新闻的数据集,旨在研究和分析虚假新闻的特征。数据集包含完整文本和大小归一化文本两种版本,便于进行机器学习实验和避免偏差。
The Fake.Br Corpus is a dataset comprising authentic and fabricated news articles written in Brazilian Portuguese, designed for the investigation and analysis of the characteristics of fake news. The dataset includes two versions: full-text and size-normalized text, facilitating machine learning experiments and mitigating bias.
创建时间:
2019-08-22
原始信息汇总
Fake.Br Corpus 概述
数据集结构
-
full_texts 文件夹:
- fake 文件夹: 包含收集的假新闻文本。
- true 文件夹: 包含收集的真实新闻文本。
- fake-meta-information 文件夹: 包含假新闻的元数据信息。
- true-meta-information 文件夹: 包含真实新闻的元数据信息。
元数据信息文件格式(每行对应一项):
- 作者
- 链接
- 分类
- 发布日期
- 令牌数量
- 无标点单词数量
- 类型数量
- 新闻内链接数量
- 大写单词数量
- 动词数量
- 虚拟和命令式动词数量
- 名词数量
- 形容词数量
- 副词数量
- 情态动词(主要是辅助动词)数量
- 单数第一和第二人称代词数量
- 复数第一人称代词数量
- 代词数量
- 因果性
- 字符数量
- 平均句子长度
- 平均单词长度
- 拼写错误的新闻百分比
- 情感性
- 多样性
-
size_normalized_texts 文件夹:
- 包含截断的文本,其中每对假-真新闻中,较长的文本被截断至较短文本的单词数量,以避免机器学习实验中的偏差。
使用说明
- 使用该数据集时,请引用项目网站及PROPOR 2018会议发表的相关论文。
引用信息
- 论文标题: Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results
- 作者: Monteiro R.A., Santos R.L.S., Pardo T.A.S., de Almeida T.A., Ruiz E.E.S., Vale O.A.
- 发表年份: 2018
- 会议: PROPOR 2018
- 出版商: Springer International Publishing
- 页码: 324--334
搜集汇总
数据集介绍

构建方式
Fake.Br Corpus数据集的构建基于对葡萄牙语真伪新闻的收集与配对。数据集包含两个主要文件夹,一个是full_texts,包含完整的新闻文本以及对应的元信息;另一个是size_normalized_texts,包含按单词数量截断的对齐文本,以减少机器学习实验中的偏差。在full_texts文件夹中,fake和true两个子文件夹分别存储了收集到的伪新闻和真实新闻,同时fake-meta-information和true-meta-information文件夹则分别存储了每条新闻的元信息,包括作者、发布日期、词汇数量等统计信息。
特点
该数据集的特点在于其提供了葡萄牙语环境中真伪新闻的对齐版本,这对于研究葡萄牙语中的伪新闻特性以及开发自动检测方法具有重要意义。数据集中的元信息提供了丰富的文本特征,有助于深入了解伪新闻的传播模式和语言特点。此外,对齐的文本版本有助于平衡机器学习模型训练中的数据偏差。
使用方法
使用Fake.Br Corpus数据集时,用户可以根据需求选择使用完整的文本或是截断的对齐文本。完整的文本适用于深入分析新闻内容,而对齐文本则更适合用于机器学习实验。在使用数据集时,建议用户遵循数据集的引用规范,正确引用项目网站和相关论文,以尊重数据集创作者的知识产权和贡献。
背景与挑战
背景概述
Fake.Br Corpus是一个针对葡萄牙语假新闻研究的专用语料库,创建于2018年,由蒙特eiro R.A.、Santos R.L.S.等研究人员发起,隶属于巴西圣保罗大学(USP)的NILC(自然语言处理中心)。该数据集的核心研究问题是针对葡萄牙语环境中假新闻的自动检测,旨在通过分析假新闻与真实新闻的语言学特征,为机器学习分类器的训练提供支持。该数据集的发布对葡萄牙语自然语言处理领域产生了重要影响,为相关研究提供了宝贵的数据资源。
当前挑战
在构建Fake.Br Corpus的过程中,研究人员面临了多重挑战。首先,假新闻的收集和验证工作需要大量的人力投入,以确保数据的质量和准确性。其次,构建一个包含对齐的真实和假新闻对的数据集,要求在数据处理和标准化方面具有高度的一致性,以避免机器学习实验中的偏差。此外,由于葡萄牙语假新闻的研究相对较少,缺乏标注数据集,这增加了数据集构建的难度。最后,假新闻的多样性和不断变化的特点,使得自动检测方法的泛化能力面临考验。
常用场景
经典使用场景
在当前信息传播迅速的时代背景下,Fake.Br Corpus作为一个葡萄牙语虚假新闻与真实新闻对比的语料库,其经典使用场景主要在于为机器学习模型提供训练数据,以实现对虚假新闻的自动检测与分类。该数据集通过提供配对的真伪新闻,使得研究者能够更准确地分析两者之间的语言特征差异,进而训练出高效的自然语言处理模型。
解决学术问题
该数据集解决了学术界中缺乏葡萄牙语标注数据集的问题,为研究者在虚假新闻检测领域提供了宝贵的研究资源。它的出现不仅促进了葡萄牙语自然语言处理技术的发展,还为理解虚假新闻的传播特性和语言学特征提供了重要支持,对于提升信息传播的真实性和准确性具有重要意义。
衍生相关工作
基于Fake.Br Corpus,研究者已经衍生出一系列相关工作,包括但不限于虚假新闻检测模型的开发、新闻内容真实性评估指标的研究以及跨语言虚假新闻检测技术的探索,这些工作进一步拓展了数据集的应用范围,推动了相关领域的学术进步和技术发展。
以上内容由遇见数据集搜集并总结生成



