asas-ai/ArCOV19-Rumors

Name: asas-ai/ArCOV19-Rumors
Creator: asas-ai
Published: 2024-05-05 18:08:10
License: 暂无描述

Hugging Face2024-05-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/asas-ai/ArCOV19-Rumors

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: Claims data_files: - split: train path: Claims/train-* - config_name: Tweets data_files: - split: train path: Tweets/train-* dataset_info: - config_name: Claims features: - name: ClaimID dtype: int64 - name: Claim dtype: string - name: ClaimLabel dtype: bool - name: Category dtype: string - name: ClaimSource dtype: string splits: - name: train num_bytes: 31777 num_examples: 138 download_size: 18351 dataset_size: 31777 - config_name: Tweets features: - name: tweetID dtype: int64 - name: label dtype: bool - name: tweetText dtype: string splits: - name: train num_bytes: 1156033 num_examples: 3584 download_size: 432565 dataset_size: 1156033 license: unknown task_categories: - text-classification language: - ar pretty_name: ArCOV19-Rumors --- # Dataset Card for "ArCOV19-Rumors" ## Paper: Fatima Haouari, Maram Hasanain, Reem Suwaileh, and Tamer Elsayed. 2021. ArCOV-19: The First Arabic COVID-19 Twitter Dataset with Propagation Networks. In Proceedings of the Sixth Arabic Natural Language Processing Workshop, pages 82–91, Kyiv, Ukraine (Virtual). Association for Computational Linguistics.

配置项： - 配置名称：Claims 数据文件： - 拆分集：训练集路径：Claims/train-* - 配置名称：Tweets 数据文件： - 拆分集：训练集路径：Tweets/train-* 数据集信息： - 配置名称：Claims 特征： - 字段名：ClaimID，数据类型：int64 - 字段名：Claim，数据类型：string - 字段名：ClaimLabel，数据类型：bool - 字段名：Category，数据类型：string - 字段名：ClaimSource，数据类型：string 拆分集： - 名称：train，字节数：31777，样本量：138 下载大小：18351，数据集总大小：31777 - 配置名称：Tweets 特征： - 字段名：tweetID，数据类型：int64 - 字段名：label，数据类型：bool - 字段名：tweetText，数据类型：string 拆分集： - 名称：train，字节数：1156033，样本量：3584 下载大小：432565，数据集总大小：1156033 许可协议：未知任务类别：文本分类语言：阿拉伯语展示名称：ArCOV19-Rumors # "ArCOV19-Rumors"数据集卡片 ## 论文：法蒂玛·哈瓦里（Fatima Haouari）、马兰·哈萨因（Maram Hasanain）、里姆·苏瓦莱赫（Reem Suwaileh）与塔梅尔·埃尔赛义德（Tamer Elsayed）于2021年发表的《ArCOV-19：首个带有传播网络的阿拉伯语COVID-19 Twitter数据集》，收录于第六届阿拉伯自然语言处理工作坊（Sixth Arabic Natural Language Processing Workshop）论文集，第82至91页，乌克兰基辅（线上举办），计算语言学协会（Association for Computational Linguistics）出版。

提供机构：

asas-ai

原始信息汇总

数据集概述

数据集名称

名称: ArCOV19-Rumors

数据集配置

Claims

配置名称: Claims
数据文件:
- 分割: train
- 路径: Claims/train-*
特征:
- ClaimID: int64
- Claim: string
- ClaimLabel: bool
- Category: string
- ClaimSource: string
分割信息:
- 名称: train
- 字节数: 31777
- 示例数: 138
下载大小: 18351
数据集大小: 31777

Tweets

配置名称: Tweets
数据文件:
- 分割: train
- 路径: Tweets/train-*
特征:
- tweetID: int64
- label: bool
- tweetText: string
分割信息:
- 名称: train
- 字节数: 1156033
- 示例数: 3584
下载大小: 432565
数据集大小: 1156033

许可证

状态: unknown

任务类别

类别: text-classification

语言

语言: ar

搜集汇总

数据集介绍

构建方式

在阿拉伯语社交媒体分析领域，ArCOV19-Rumors数据集的构建体现了对疫情信息传播的深度关注。该数据集通过收集阿拉伯语推特平台上与COVID-19相关的推文，并辅以人工标注的声明数据，形成了结构化的信息库。构建过程涉及从海量推文中筛选出与疫情谣言相关的文本，并为每条声明分配唯一的标识符、文本内容、真实性标签及分类信息，确保了数据的系统性和可追溯性。

特点

该数据集的核心特点在于其专注于阿拉伯语疫情谣言的独特性，涵盖了声明与推文两个维度的数据。声明部分包含138条标注了真实性、类别及来源的疫情相关主张，而推文部分则提供了3584条带有真实性标签的阿拉伯语推文文本。这种双结构设计不仅丰富了数据层次，还为研究者提供了从宏观声明到微观传播的完整视角，支持对谣言扩散机制的深入探索。

使用方法

在自然语言处理任务中，ArCOV19-Rumors数据集主要适用于文本分类研究，特别是谣言检测与疫情信息分析。使用者可通过加载不同的配置（如Claims或Tweets）来访问特定类型的数据，每条记录均包含文本字段及对应的真实性标签。该数据集为开发阿拉伯语谣言识别模型提供了基准资源，有助于推动跨语言信息可信度评估技术的发展。

背景与挑战

背景概述

在数字时代，社交媒体已成为信息传播的关键渠道，尤其在公共卫生危机期间，虚假信息的扩散可能引发严重社会后果。ArCOV19-Rumors数据集由Fatima Haouari等研究人员于2021年创建，作为首个专注于阿拉伯语COVID-19相关推文的谣言检测数据集，旨在应对阿拉伯语自然语言处理领域在疫情信息验证方面的空白。该数据集由卡塔尔大学等机构主导开发，核心研究问题聚焦于自动识别和分类阿拉伯语社交媒体中的疫情谣言，为后续的虚假信息检测算法提供了重要基础，推动了阿拉伯语NLP技术在公共卫生事件中的应用研究。

当前挑战

该数据集致力于解决阿拉伯语社交媒体中疫情谣言的自动检测挑战，这涉及复杂的语言特征和文化语境分析，尤其在低资源语言环境下模型泛化能力不足。在构建过程中，研究人员面临数据收集与标注的难题，包括从Twitter平台爬取阿拉伯语推文时需处理非标准文本和方言变体，同时人工标注需要语言专家确保标签的准确性，以避免偏见并覆盖多样化的谣言类别。此外，数据集的规模相对有限，可能制约深度学习模型的训练效果，需进一步扩展以提升实用性。

常用场景

经典使用场景

在阿拉伯语社交媒体信息验证领域，ArCOV19-Rumors数据集为研究者提供了关键的语言资源。该数据集通过标注阿拉伯语推文与相关声明的真实性标签，成为开发自动化谣言检测模型的基础。其经典使用场景集中于训练和评估自然语言处理模型，以识别与COVID-19疫情相关的虚假信息，尤其在阿拉伯语语境下填补了数据空白，支持了跨语言虚假信息研究的深入。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于其构建的传播网络分析，探索了虚假信息在阿拉伯语社交媒体中的扩散模式；同时，研究者利用该数据集开发了多模态融合模型，结合文本与上下文特征提升检测精度。这些工作不仅扩展了阿拉伯语NLP的技术边界，也为后续的跨语言虚假信息数据集构建提供了方法论参考，推动了相关领域的持续发展。

数据集最近研究