Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation

github2021-12-23 更新2024-05-31 收录

下载链接：

https://github.com/MaazAmjad/Urdu-News-Augmented-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含900篇原始乌尔都语新闻文章，标注为真实或虚假，以及通过谷歌翻译MT系统从英语翻译到乌尔都语的400篇新闻文章，用于探索增强效果。

This dataset comprises 900 original Urdu news articles, annotated as either genuine or fabricated, along with 400 news articles translated from English to Urdu via the Google Translate MT system, aimed at exploring enhancement effects.

创建时间：

2019-11-13

原始信息汇总

数据集概述

数据集名称

Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation

发布日期

March 03, 2020

作者

Maaz Amjad, Grigori Sidorov, Alisa Zhila

机构

Natural Language and Text Processing Laboratory, Center for Computing Research (CIC), Instituto Politécnico Nacional (IPN), Ciudad de México (Mexico City), Mexico

数据集内容

原始数据集包含900篇乌尔都语新闻文章，标注为真实或虚假。
增强数据集包含400篇新闻文章，通过Google Translate机器翻译系统从英语翻译至乌尔都语。
提供了多种数据集组合，用于探索增强效果。

引用信息

@article{Maazaug2020, author = {Maaz Amjad, Grigori Sidorov, Alisa Zhila}, title = {Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation}, conference = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, page = {2530–2535} year = {2020} }

搜集汇总

数据集介绍

构建方式

该数据集的构建始于对乌尔都语新闻文章的收集与标注，共包含900篇新闻文章，每篇文章均被标注为真实或虚假。为进一步增强数据集的多样性和实用性，研究者利用Google翻译系统将400篇英文假新闻文章翻译为乌尔都语，形成扩充数据集。这一过程不仅丰富了数据集的语料库，还为后续的假新闻检测研究提供了更多可能性。

特点

该数据集的特点在于其多语言背景与数据扩充技术的结合。原始数据集由乌尔都语新闻文章构成，标注信息清晰明确，便于研究者直接用于假新闻检测任务。扩充数据集则通过机器翻译技术生成，为跨语言假新闻检测提供了实验基础。此外，数据集中还包含了多种数据组合形式，便于研究者探索数据扩充对模型性能的影响。

使用方法

该数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究者可直接使用原始数据集进行乌尔都语假新闻检测模型的训练与评估，也可结合扩充数据集探索跨语言检测的效果。数据集中提供的多种数据组合形式，为实验设计提供了便利。此外，数据集的使用需遵循引用规范，相关研究成果应引用原始论文以尊重作者的贡献。

背景与挑战

背景概述

在信息爆炸的时代，虚假新闻的传播已成为全球性问题，尤其是在多语言环境中，这一问题尤为突出。2020年，由Maaz Amjad、Grigori Sidorov和Alisa Zhila等研究人员在墨西哥国立理工学院自然语言与文本处理实验室创建的《Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation》数据集，旨在解决乌尔都语虚假新闻检测的难题。该数据集包含900篇乌尔都语新闻文章，标注为真实或虚假，并通过机器翻译技术生成了400篇增强数据。这一资源的发布为乌尔都语自然语言处理领域提供了重要的研究基础，尤其是在多语言虚假新闻检测方面具有深远影响。

当前挑战

该数据集的核心挑战在于乌尔都语虚假新闻检测的复杂性和数据稀缺性。乌尔都语作为一种资源匮乏的语言，缺乏高质量的标注数据，这直接影响了模型的训练效果。此外，机器翻译生成的增强数据虽然扩展了数据规模，但也引入了翻译质量不一致的问题，可能影响模型的泛化能力。在构建过程中，研究人员还需克服乌尔都语文本的独特语言特征，如复杂的形态结构和丰富的文化背景，这些因素进一步增加了数据标注和模型训练的难度。

常用场景

经典使用场景

在自然语言处理领域，特别是在假新闻检测任务中，该数据集为研究乌尔都语假新闻的识别提供了宝贵的资源。通过包含900篇乌尔都语新闻文章的标注数据，以及通过机器翻译生成的400篇增强数据，研究者可以探索不同数据增强技术对模型性能的影响。这一数据集的使用场景主要集中在跨语言假新闻检测、数据增强技术的评估以及乌尔都语自然语言处理模型的训练与测试。

解决学术问题

该数据集解决了乌尔都语假新闻检测领域的数据稀缺问题，尤其是在低资源语言环境中。通过提供标注数据和增强数据，研究者能够更有效地训练和评估假新闻检测模型，从而提升模型的泛化能力和鲁棒性。此外，该数据集还为研究机器翻译在数据增强中的应用提供了实验平台，推动了跨语言假新闻检测技术的发展。

衍生相关工作

该数据集衍生了一系列相关研究，特别是在跨语言假新闻检测和数据增强领域。例如，基于该数据集的研究工作探讨了不同机器翻译系统在数据增强中的效果，以及如何通过多语言模型提升假新闻检测的准确性。此外，该数据集还激发了更多关于低资源语言假新闻检测的研究，推动了自然语言处理技术在多样化语言环境中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation

数据集概述

数据集名称

发布日期

作者

机构

数据集内容

相关论文

引用信息