Bend the Truth

github2023-02-13 更新2024-05-31 收录

下载链接：

https://github.com/MaazAmjad/Datasets-for-Urdu-news

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含六个不同领域（技术、教育、商业、体育、政治、娱乐）的新闻，其中真实新闻来自巴基斯坦、印度、英国和美国的主流新闻网站，而假新闻则是由专业记者编写的真实新闻的假版本。

This dataset comprises news articles from six distinct domains (technology, education, business, sports, politics, entertainment). The authentic news articles are sourced from mainstream news websites in Pakistan, India, the United Kingdom, and the United States, whereas the fake news articles are fabricated versions of the real news, crafted by professional journalists.

创建时间：

2019-05-21

原始信息汇总

Urdu Fake News Dataset 概述

数据集介绍

名称: Urdu Fake News Dataset
内容: 包含5个不同领域的新闻数据，分别是体育、健康、技术、娱乐和商业。
真实新闻收集方法: 结合手动方法收集。
虚假新闻收集方法: 通过专业记者的众包注释收集。

数据集结构

数据集名称: "Bend the Truth"
领域: 技术、教育、商业、体育、政治、娱乐。
来源: 主要来自巴基斯坦、印度、英国和美国的多个主流新闻网站，如BBC Urdu News, CNN Urdu等。
结构: 包含两个文件夹，分别存放真实和虚假新闻，共5种新闻类型。
类别分布:
- 虚假新闻: 400条
- 真实新闻: 500条

引用信息

引用格式:

@article{MaazUrdufake2020, author = {Amjad, Maaz and Sidorov, Grigori and Zhila, Alisa and Gómez-Adorno, Helena and Voronkov, Ilia and Gelbukh, Alexander}, title = {Bend the Truth: A Benchmark Dataset for Fake News Detection in Urdu and Its Evaluation}, journal={Journal of Intelligent & Fuzzy Systems}, volume={39}, number={2}, pages={2457-2469}, doi = {10.3233/JIFS-179905}, year={2020}, publisher={IOS Press} }

搜集汇总

数据集介绍

构建方式

Bend the Truth 数据集的构建过程体现了严谨的科学方法。真实新闻通过手动方式从巴基斯坦、印度、英国和美国的主流新闻网站收集，包括BBC Urdu News、CNN Urdu等。虚假新闻则由专业记者根据真实新闻进行创作，确保了数据的多样性和真实性。这种结合手动收集与专业创作的策略，使得数据集在新闻领域具有较高的代表性和可靠性。

特点

Bend the Truth 数据集涵盖了技术、教育、商业、体育、政治和娱乐六大领域的新闻内容。其独特之处在于，每个领域的新闻均包含真实与虚假两类，且虚假新闻由专业记者精心编写，确保了数据的多样性和复杂性。数据集的类别分布清晰，例如体育（sp）、技术（tech）等，便于研究者进行分类和分析。

使用方法

Bend the Truth 数据集的使用方法灵活多样。研究者可通过其提供的文件夹结构快速定位所需类别的新闻数据，例如技术或体育类新闻。数据集适用于自然语言处理任务，尤其是虚假新闻检测模型的训练与评估。此外，数据集还提供了详细的引用信息，便于学术研究中的合规使用。

背景与挑战

背景概述

Bend the Truth 数据集由墨西哥国立理工学院的自然语言与文本处理实验室于2020年创建，主要研究人员包括Maaz Amjad、Grigori Sidorov等。该数据集专注于乌尔都语假新闻检测，涵盖了技术、教育、商业、体育、政治和娱乐六大领域的新闻数据。真实新闻主要来自巴基斯坦、印度、英国和美国的主流新闻网站，而假新闻则由专业记者根据真实新闻改写而成。该数据集的发布为乌尔都语假新闻检测研究提供了重要的基准数据，推动了自然语言处理领域在低资源语言中的发展。

当前挑战

Bend the Truth 数据集在构建过程中面临多重挑战。首先，乌尔都语作为一种低资源语言，其新闻数据的获取和标注难度较大，尤其是在确保数据多样性和代表性方面。其次，假新闻的生成需要依赖专业记者的参与，以确保其真实性和可信度，这对数据收集的时间和成本提出了较高要求。此外，数据集的类别平衡和规模扩展也是重要挑战，如何在有限的资源下覆盖更多领域并保持数据质量，是未来研究需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，'Bend the Truth'数据集被广泛应用于乌尔都语假新闻检测的研究中。该数据集通过提供真实新闻与由专业记者编写的假新闻对比，为研究者提供了一个标准化的测试平台，用于开发和评估假新闻检测算法。特别是在多领域新闻文本分析中，该数据集展现了其独特的价值。

实际应用

在实际应用中，'Bend the Truth'数据集被用于开发自动化假新闻检测系统，这些系统能够帮助新闻机构、社交媒体平台和政府机构识别和过滤虚假信息。特别是在南亚地区，该数据集的应用有助于提升公众对假新闻的识别能力，减少虚假信息对社会稳定和公共安全的威胁。

衍生相关工作

基于'Bend the Truth'数据集，研究者们开展了多项经典工作，包括基于机器学习的假新闻分类模型、基于深度学习的文本特征提取方法以及跨语言假新闻检测系统的开发。这些研究不仅丰富了假新闻检测的理论基础，还为实际应用提供了技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集