Urdu-News-Augmented-Dataset

github2020-06-04 更新2024-05-31 收录

下载链接：

https://github.com/mirfan899/Urdu-News-Augmented-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含900篇原始乌尔都语新闻文章，标注为真实或虚假。此外，还包括通过Google翻译系统从英语翻译到乌尔都语的400篇新闻文章，用于增强数据集，以及这些数据集的多种组合，用于探索增强效果。

This dataset comprises 900 original Urdu news articles, annotated as either genuine or fake. Additionally, it includes 400 news articles translated from English to Urdu via the Google Translate system, aimed at augmenting the dataset. Various combinations of these datasets are also provided to explore the effects of augmentation.

创建时间：

2020-06-04

原始信息汇总

数据集概述

数据集名称

Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation

发布日期

March 03, 2020

主要贡献者

Maaz Amjad
Grigori Sidorov
Alisa Zhila

数据集内容

原始数据集包含900篇乌尔都语新闻文章，标注为真实或虚假。
增广数据集包含400篇新闻文章，通过Google Translate从英语翻译至乌尔都语。
提供多种数据集组合，用于探索增广效果。

引用信息

若使用此数据集进行出版物，请引用以下文献：

@article{Maazaug2020, author = {Maaz Amjad, Grigori Sidorov, Alisa Zhila}, title = {Annotated Fake News Dataset in Urdu and Augmentation using Machine Translation}, conference = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, page = {2530–2535} year = {2020} }

联系方式

如有进一步问题或咨询，请联系Maaz Amjad (maazamjad@phystech.edu)。

搜集汇总

数据集介绍

构建方式

Urdu-News-Augmented-Dataset的构建基于乌尔都语新闻数据的标注与机器翻译增强技术。该数据集包含900篇乌尔都语新闻文章，每篇文章均被标注为真实或虚假新闻。此外，通过Google Translate机器翻译系统，从英文新闻数据集中翻译生成了400篇乌尔都语新闻作为增强数据集。原始英文虚假新闻数据集来源于密歇根大学的研究资源。数据集的构建旨在探索机器翻译在乌尔都语虚假新闻检测中的增强效果。

使用方法

该数据集适用于乌尔都语虚假新闻检测任务的研究与实验。研究者可以通过加载数据集中的原始新闻与增强新闻数据，训练和评估自然语言处理模型。数据集提供了多种组合方式，用户可根据需求选择不同的数据子集进行实验。此外，数据集的使用需遵循引用规范，相关研究成果应引用原始论文以尊重作者的知识产权。

背景与挑战

背景概述

Urdu-News-Augmented-Dataset是由Maaz Amjad、Grigori Sidorov和Alisa Zhila等研究人员于2020年创建的一个乌尔都语假新闻检测数据集。该数据集由墨西哥国立理工学院的自然语言与文本处理实验室开发，旨在通过数据增强技术提升乌尔都语假新闻检测的准确性。数据集包含900篇乌尔都语新闻文章，标注为真实或虚假，并通过机器翻译技术从英语生成了400篇增强数据。该数据集的研究成果发表于2020年的语言资源与评估会议（LREC），为乌尔都语自然语言处理领域提供了重要的资源支持。

当前挑战

该数据集的核心挑战在于乌尔都语假新闻检测的复杂性和数据稀缺性。首先，乌尔都语作为一种低资源语言，缺乏足够的标注数据，导致模型训练面临数据不足的问题。其次，机器翻译生成的增强数据可能存在语义偏差或翻译错误，影响模型的泛化能力。此外，假新闻检测本身具有高度主观性，标注过程中可能引入人为偏差，进一步增加了模型训练的难度。这些挑战不仅体现在数据集的构建过程中，也反映了乌尔都语自然语言处理领域在资源获取和技术应用上的局限性。

常用场景

经典使用场景

在自然语言处理领域，Urdu-News-Augmented-Dataset为乌尔都语假新闻检测提供了重要的数据支持。该数据集包含了900篇乌尔都语新闻文章，标注为真实或虚假，并通过机器翻译技术生成了400篇增强数据。这一数据集广泛应用于乌尔都语文本分类、假新闻检测模型训练与评估等场景，为乌尔都语自然语言处理研究提供了宝贵的资源。

解决学术问题

该数据集解决了乌尔都语假新闻检测研究中数据稀缺的问题。通过提供高质量的标注数据以及机器翻译生成的增强数据，研究人员能够更有效地训练和评估假新闻检测模型。此外，该数据集还为探索数据增强技术在低资源语言中的应用提供了实验基础，推动了乌尔都语自然语言处理领域的发展。

实际应用

在实际应用中，Urdu-News-Augmented-Dataset被广泛用于乌尔都语新闻媒体的内容审核与虚假信息检测。新闻平台和社交媒体可以利用该数据集训练自动化系统，实时识别并过滤虚假新闻，从而提升信息传播的可信度。此外，该数据集还为政府机构和研究机构提供了工具，用于监测和打击虚假信息的传播。

数据集最近研究