asas-ai/ArCOV19-Rumors
收藏Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/asas-ai/ArCOV19-Rumors
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: Claims
data_files:
- split: train
path: Claims/train-*
- config_name: Tweets
data_files:
- split: train
path: Tweets/train-*
dataset_info:
- config_name: Claims
features:
- name: ClaimID
dtype: int64
- name: Claim
dtype: string
- name: ClaimLabel
dtype: bool
- name: Category
dtype: string
- name: ClaimSource
dtype: string
splits:
- name: train
num_bytes: 31777
num_examples: 138
download_size: 18351
dataset_size: 31777
- config_name: Tweets
features:
- name: tweetID
dtype: int64
- name: label
dtype: bool
- name: tweetText
dtype: string
splits:
- name: train
num_bytes: 1156033
num_examples: 3584
download_size: 432565
dataset_size: 1156033
license: unknown
task_categories:
- text-classification
language:
- ar
pretty_name: ArCOV19-Rumors
---
# Dataset Card for "ArCOV19-Rumors"
## Paper:
Fatima Haouari, Maram Hasanain, Reem Suwaileh, and Tamer Elsayed. 2021. ArCOV-19: The First Arabic COVID-19 Twitter Dataset with Propagation Networks. In Proceedings of the Sixth Arabic Natural Language Processing Workshop, pages 82–91, Kyiv, Ukraine (Virtual). Association for Computational Linguistics.
配置项:
- 配置名称:Claims
数据文件:
- 拆分集:训练集
路径:Claims/train-*
- 配置名称:Tweets
数据文件:
- 拆分集:训练集
路径:Tweets/train-*
数据集信息:
- 配置名称:Claims
特征:
- 字段名:ClaimID,数据类型:int64
- 字段名:Claim,数据类型:string
- 字段名:ClaimLabel,数据类型:bool
- 字段名:Category,数据类型:string
- 字段名:ClaimSource,数据类型:string
拆分集:
- 名称:train,字节数:31777,样本量:138
下载大小:18351,数据集总大小:31777
- 配置名称:Tweets
特征:
- 字段名:tweetID,数据类型:int64
- 字段名:label,数据类型:bool
- 字段名:tweetText,数据类型:string
拆分集:
- 名称:train,字节数:1156033,样本量:3584
下载大小:432565,数据集总大小:1156033
许可协议:未知
任务类别:文本分类
语言:阿拉伯语
展示名称:ArCOV19-Rumors
# "ArCOV19-Rumors"数据集卡片
## 论文:
法蒂玛·哈瓦里(Fatima Haouari)、马兰·哈萨因(Maram Hasanain)、里姆·苏瓦莱赫(Reem Suwaileh)与塔梅尔·埃尔赛义德(Tamer Elsayed)于2021年发表的《ArCOV-19:首个带有传播网络的阿拉伯语COVID-19 Twitter数据集》,收录于第六届阿拉伯自然语言处理工作坊(Sixth Arabic Natural Language Processing Workshop)论文集,第82至91页,乌克兰基辅(线上举办),计算语言学协会(Association for Computational Linguistics)出版。
提供机构:
asas-ai
原始信息汇总
数据集概述
数据集名称
- 名称: ArCOV19-Rumors
数据集配置
Claims
- 配置名称: Claims
- 数据文件:
- 分割: train
- 路径: Claims/train-*
- 特征:
- ClaimID: int64
- Claim: string
- ClaimLabel: bool
- Category: string
- ClaimSource: string
- 分割信息:
- 名称: train
- 字节数: 31777
- 示例数: 138
- 下载大小: 18351
- 数据集大小: 31777
Tweets
- 配置名称: Tweets
- 数据文件:
- 分割: train
- 路径: Tweets/train-*
- 特征:
- tweetID: int64
- label: bool
- tweetText: string
- 分割信息:
- 名称: train
- 字节数: 1156033
- 示例数: 3584
- 下载大小: 432565
- 数据集大小: 1156033
许可证
- 状态: unknown
任务类别
- 类别: text-classification
语言
- 语言: ar
搜集汇总
数据集介绍

构建方式
在阿拉伯语社交媒体分析领域,ArCOV19-Rumors数据集的构建体现了对疫情信息传播的深度关注。该数据集通过收集阿拉伯语推特平台上与COVID-19相关的推文,并辅以人工标注的声明数据,形成了结构化的信息库。构建过程涉及从海量推文中筛选出与疫情谣言相关的文本,并为每条声明分配唯一的标识符、文本内容、真实性标签及分类信息,确保了数据的系统性和可追溯性。
特点
该数据集的核心特点在于其专注于阿拉伯语疫情谣言的独特性,涵盖了声明与推文两个维度的数据。声明部分包含138条标注了真实性、类别及来源的疫情相关主张,而推文部分则提供了3584条带有真实性标签的阿拉伯语推文文本。这种双结构设计不仅丰富了数据层次,还为研究者提供了从宏观声明到微观传播的完整视角,支持对谣言扩散机制的深入探索。
使用方法
在自然语言处理任务中,ArCOV19-Rumors数据集主要适用于文本分类研究,特别是谣言检测与疫情信息分析。使用者可通过加载不同的配置(如Claims或Tweets)来访问特定类型的数据,每条记录均包含文本字段及对应的真实性标签。该数据集为开发阿拉伯语谣言识别模型提供了基准资源,有助于推动跨语言信息可信度评估技术的发展。
背景与挑战
背景概述
在数字时代,社交媒体已成为信息传播的关键渠道,尤其在公共卫生危机期间,虚假信息的扩散可能引发严重社会后果。ArCOV19-Rumors数据集由Fatima Haouari等研究人员于2021年创建,作为首个专注于阿拉伯语COVID-19相关推文的谣言检测数据集,旨在应对阿拉伯语自然语言处理领域在疫情信息验证方面的空白。该数据集由卡塔尔大学等机构主导开发,核心研究问题聚焦于自动识别和分类阿拉伯语社交媒体中的疫情谣言,为后续的虚假信息检测算法提供了重要基础,推动了阿拉伯语NLP技术在公共卫生事件中的应用研究。
当前挑战
该数据集致力于解决阿拉伯语社交媒体中疫情谣言的自动检测挑战,这涉及复杂的语言特征和文化语境分析,尤其在低资源语言环境下模型泛化能力不足。在构建过程中,研究人员面临数据收集与标注的难题,包括从Twitter平台爬取阿拉伯语推文时需处理非标准文本和方言变体,同时人工标注需要语言专家确保标签的准确性,以避免偏见并覆盖多样化的谣言类别。此外,数据集的规模相对有限,可能制约深度学习模型的训练效果,需进一步扩展以提升实用性。
常用场景
经典使用场景
在阿拉伯语社交媒体信息验证领域,ArCOV19-Rumors数据集为研究者提供了关键的语言资源。该数据集通过标注阿拉伯语推文与相关声明的真实性标签,成为开发自动化谣言检测模型的基础。其经典使用场景集中于训练和评估自然语言处理模型,以识别与COVID-19疫情相关的虚假信息,尤其在阿拉伯语语境下填补了数据空白,支持了跨语言虚假信息研究的深入。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其构建的传播网络分析,探索了虚假信息在阿拉伯语社交媒体中的扩散模式;同时,研究者利用该数据集开发了多模态融合模型,结合文本与上下文特征提升检测精度。这些工作不仅扩展了阿拉伯语NLP的技术边界,也为后续的跨语言虚假信息数据集构建提供了方法论参考,推动了相关领域的持续发展。
数据集最近研究
最新研究方向
在阿拉伯语社交媒体信息验证领域,ArCOV19-Rumors数据集为研究COVID-19相关谣言的自动检测与分类提供了关键资源。该数据集聚焦于阿拉伯语推文中的虚假信息传播,结合了声明与推文的多维度标注,推动了基于深度学习的跨语言谣言识别模型的发展。前沿研究正探索利用图神经网络分析信息传播网络,结合上下文语义理解,以提升在低资源语言环境下的检测精度。相关热点事件如全球公共卫生危机中的信息战,凸显了此类数据集在促进数字健康沟通、维护网络信息生态方面的重要意义,为多语言自然语言处理技术在应急响应中的应用奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



