Ax-to-Grind-Urdu

github2024-02-19 更新2024-05-31 收录

下载链接：

https://github.com/Sheetal83/Ax-to-Grind-Urdu-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection Fake news (FN) impacts society and affects public opinion, institutional confidence and the political horizon of a state. FN proliferation on online websites and Online Social Networks (OSNs) has increased profusely. Various fact-checking websites include news in English and barely provide information about FN in regional languages. Fake News Detection (FND) counts upon appropriately labelled and large datasets. We curate the Ax-to-Grind Urdu dataset for FND. This GitHub repository corresponds dataset used for our research article titled “Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection”. Ax-to-Grind Urdu is the first largest multi-domain and cross-domain dataset of 10,083 news items for Urdu Fake News Detection. The news items in the dataset cover fifteen domains, i.e., politics, health, sports, entertainment, technology, weather, agriculture, economy, showbiz, social media, education, women’s rights, religion, foreign affairs and international. The dataset is annotated by expert journalists. The news items are scraped from the year 2017 to the year 2023. The news items are collected from the websites of leading newspapers and news channels from Pakistan and India, as Urdu native speakers come from these two countries largely. Two fine-grained labels, True and Fake, are assigned to each news item and verified through online web sources.

《Ax-to-Grind Urdu：乌尔都语假新闻检测基准数据集》假新闻（Fake News，下称FN）会对社会造成冲击，影响公众舆论、机构公信力乃至一国的政治格局。当前，FN在各类网站及在线社交网络（Online Social Networks，下称OSNs）中的传播态势愈发泛滥。目前各类事实核查网站多仅收录英语新闻，几乎未针对区域性语言的假新闻提供相关信息。假新闻检测（Fake News Detection，下称FND）依赖标注规范且规模充足的大型数据集。为此我们精心构建了面向FND的Ax-to-Grind Urdu数据集。本GitHub仓库即对应本研究团队发表的题为《Ax-to-Grind Urdu：乌尔都语假新闻检测基准数据集》的学术论文中所使用的数据集。 Ax-to-Grind Urdu是首个且规模达10083条新闻的多领域跨领域乌尔都语假新闻检测数据集。该数据集涵盖15个领域，分别为：政治、健康、体育、娱乐、科技、气象、农业、经济、演艺界（showbiz）、社交媒体、教育、妇女权益、宗教、外交以及国际事务。本数据集由专业记者完成标注，收录的新闻时间跨度为2017年至2023年，素材主要取自巴基斯坦与印度的主流报纸及新闻频道官网——这两个国家是乌尔都语母语使用者的主要聚居地。每条新闻均被标注为「真实」与「虚假」两个细粒度标签，并通过在线网络资源完成交叉验证。

创建时间：

2024-02-19

原始信息汇总

Ax-to-Grind Urdu 数据集概述

数据集描述

名称: Ax-to-Grind Urdu
目的: 用于乌尔都语假新闻检测的基准数据集
规模: 包含10,083条新闻
领域: 涵盖15个领域，包括政治、健康、体育、娱乐、技术、天气、农业、经济、娱乐业、社交媒体、教育、妇女权利、宗教、外交和国际事务
数据来源: 2017年至2023年间，从巴基斯坦和印度的主要报纸和新闻频道的网站收集
标注: 由专业记者进行标注，每个新闻条目被赋予“真”或“假”两个细粒度标签，并通过在线网络资源进行验证

数据集特点

首个最大的多领域和跨领域乌尔都语假新闻检测数据集
数据集的新闻条目覆盖广泛的主题和领域
通过专业标注确保数据质量

研究应用

该数据集用于研究文章“Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection”
相关工作已被接受在The 22nd IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom-2023)上发表

搜集汇总

数据集介绍

构建方式

Ax-to-Grind Urdu数据集的构建过程体现了对乌尔都语假新闻检测领域的高度关注。该数据集通过从2017年至2023年间，从巴基斯坦和印度的主要报纸和新闻频道网站中抓取新闻条目，涵盖了政治、健康、体育、娱乐等十五个不同领域。每条新闻均由专业记者进行标注，并通过在线资源验证其真实性，最终形成了包含10,083条新闻的多领域、跨领域数据集。

特点

Ax-to-Grind Urdu数据集作为乌尔都语假新闻检测领域的首个大规模数据集，具有显著的多样性和广泛性。其新闻条目覆盖了十五个不同领域，确保了数据集的全面性和代表性。每条新闻均被精细标注为“真实”或“虚假”，并通过在线资源进行验证，确保了标签的准确性。数据集的跨领域特性使其能够广泛应用于不同领域的假新闻检测研究。

使用方法

Ax-to-Grind Urdu数据集的使用方法简便且高效。研究人员可通过GitHub获取数据集，并利用其丰富的多领域新闻条目进行假新闻检测模型的训练与评估。数据集的精细标注和验证机制为模型提供了高质量的标签数据，有助于提升检测模型的准确性和鲁棒性。此外，数据集的跨领域特性使其能够支持不同领域的假新闻检测研究，为相关领域的学术探索提供了有力支持。

背景与挑战

背景概述

在当今信息爆炸的时代，虚假新闻（Fake News, FN）对社会舆论、机构信任乃至国家政治格局产生了深远影响。特别是在线网站和社交网络（Online Social Networks, OSNs）上，虚假新闻的传播速度与范围显著增加。然而，现有的虚假新闻检测（Fake News Detection, FND）研究多集中于英语新闻，对区域语言如乌尔都语的关注较少。为此，Ax-to-Grind Urdu数据集应运而生，旨在填补这一研究空白。该数据集由研究人员在2023年发布，是首个针对乌尔都语虚假新闻检测的大规模多领域数据集，包含10,083条新闻条目，涵盖政治、健康、体育、娱乐等十五个领域。数据集的新闻条目由专业记者标注，并经过在线资源的验证，确保了数据的可靠性与权威性。该研究已在第22届IEEE国际信任、安全与隐私计算与通信会议（TrustCom-2023）上获得认可，为乌尔都语虚假新闻检测领域提供了重要的基准资源。

当前挑战

Ax-to-Grind Urdu数据集的构建与应用面临多重挑战。在领域问题方面，虚假新闻检测本身具有高度复杂性，尤其是在多语言和多领域背景下，如何准确识别和分类虚假新闻成为核心难题。乌尔都语作为一种区域语言，其语法结构、表达方式与英语存在显著差异，这增加了模型训练的难度。在数据集构建过程中，研究人员需克服数据收集与标注的挑战。由于乌尔都语新闻来源分散且质量参差不齐，确保数据的多样性与代表性成为关键。此外，虚假新闻的标注依赖于专家判断，这一过程不仅耗时，还需确保标注的一致性与准确性。尽管数据集已通过在线资源验证，但虚假新闻的快速演变与传播速度仍对数据集的时效性提出了持续挑战。

常用场景

经典使用场景

在自然语言处理领域，Ax-to-Grind-Urdu数据集为乌尔都语假新闻检测提供了重要的基准。该数据集涵盖了政治、健康、体育等多个领域的新闻条目，为研究人员提供了一个多领域、跨领域的假新闻检测平台。通过使用该数据集，研究人员能够开发和验证各种假新闻检测算法，特别是在乌尔都语这一区域性语言中的应用。

实际应用

在实际应用中，Ax-to-Grind-Urdu数据集可以用于开发乌尔都语假新闻检测工具，帮助新闻机构、社交媒体平台和政府部门识别和过滤虚假信息。通过使用该数据集，相关机构能够提高对假新闻的识别能力，减少虚假信息对公众舆论和社会稳定的负面影响。

衍生相关工作

基于Ax-to-Grind-Urdu数据集，研究人员已经开展了一系列相关研究，包括开发新的假新闻检测算法、评估现有算法的性能以及探索假新闻传播的机制。这些研究不仅丰富了假新闻检测领域的理论体系，还为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集