bigIR/AuFIN

Name: bigIR/AuFIN
Creator: bigIR
Published: 2024-03-08 16:45:30
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/bigIR/AuFIN

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于在Twitter上进行权威用户查找的阿拉伯语数据集。数据集分享了使用BM25词汇检索模型检索到的前5位用户，其中查询是谣言文本，文档集合是用户文档。每个用户文档是通过连接其翻译后的个人资料名称和描述，以及所有其翻译后的Twitter列表名称和描述来构建的。

提供机构：

bigIR

原始信息汇总

数据集概述

数据集名称

AuFIN

语言

阿拉伯语

数据集描述

AuFIN是一个用于Twitter中权威用户发现的阿拉伯语数据集。该数据集包含了使用BM25词汇检索模型检索到的前5个用户，其中查询是谣言文本，文档集合是用户文档。每个用户文档由其翻译后的个人资料名称和描述，以及所有翻译后的Twitter列表名称和描述拼接而成。

数据集链接

完整数据集链接：AuFIN
测试数据链接：测试数据

相关论文

该数据集的相关工作已发表在《Information Processing & Management》期刊上，题为“Who can verify this? Finding authorities for rumor verification in Twitter”。

搜集汇总

数据集介绍

构建方式

在社交媒体信息验证领域，权威用户识别对于遏制谣言传播至关重要。AuFIN数据集的构建基于Twitter平台，采用BM25词汇检索模型，以谣言文本作为查询，用户文档集合作为检索对象。用户文档通过整合翻译后的个人资料名称、描述以及其所有Twitter列表的名称与描述来构建，最终筛选出前5位最相关的用户作为权威候选，为后续的谣言验证研究提供了结构化数据支持。

特点

该数据集专注于阿拉伯语环境下的权威发现任务，填补了非英语社交媒体分析中的空白。其核心特点在于结合了用户的多维度文本信息，包括个人资料和列表内容，并通过翻译处理增强了跨语言适用性。数据以简洁的检索结果形式呈现，直接服务于谣言验证场景，为研究者提供了针对性的实验基础，促进了计算语言学与社会计算领域的交叉探索。

使用方法

研究者可利用AuFIN数据集进行权威用户识别模型的训练与评估，特别是在跨语言信息检索任务中。数据集适用于测试检索算法在真实社交媒体环境下的性能，用户可通过提供的GitHub链接访问完整数据与测试集。在实际应用中，该数据可作为基准，用于比较不同模型在阿拉伯语谣言验证中的效果，推动自动化事实核查技术的发展。

背景与挑战

背景概述

在社交媒体信息验证领域，阿拉伯语权威用户识别研究长期面临数据资源匮乏的困境。2023年由Fatima Haouari等学者构建的AuFIN数据集应运而生，该数据集聚焦于推特平台阿拉伯语谣言验证中的权威发现任务，通过BM25词法检索模型提取与谣言文本相关的Top5用户数据，为用户文档构建提供跨语言特征融合框架。这项发表于《Information Processing & Management》期刊的研究，为阿拉伯语自然语言处理领域建立了首个权威用户定位评估基准，推动了跨语言社交信息可信度分析范式的发展。

当前挑战

该数据集核心挑战体现在双重维度：在领域问题层面，阿拉伯语形态复杂性导致用户特征提取困难，方言与标准语混合现象影响权威性评估，推特动态语境中用户可信度标签存在时空漂移风险；在构建过程中，面临用户文档多源信息整合的技术壁垒，跨语言翻译带来的语义损耗问题，以及社交媒体数据采集面临的伦理合规性约束，这些因素共同制约着权威用户识别模型的泛化能力与可解释性提升。

常用场景

经典使用场景

在社交媒体信息验证领域，AuFIN数据集为阿拉伯语推特平台上的权威用户发现提供了关键支持。该数据集通过BM25词汇检索模型，基于谣言文本作为查询，从用户文档集合中检索出前5位潜在权威用户，其中用户文档整合了翻译后的个人资料、描述以及推特列表信息。这一经典使用场景主要应用于计算语言学和社会计算研究，帮助研究者构建自动化系统，以识别在特定话题中具有影响力的用户，从而为后续的谣言验证工作奠定数据基础。

实际应用

在实际应用层面，AuFIN数据集可被整合到社交媒体监控和事实核查平台中，辅助自动化系统快速定位可能澄清谣言的权威用户。例如，新闻机构或公共健康部门可以利用此类工具，在阿拉伯语推特上追踪疫情或政治事件的相关讨论，及时识别并联系领域专家进行信息核实。这不仅增强了谣言应对的时效性，也为多语言环境下的数字治理提供了技术支撑，促进了在线社区的信息生态健康。

衍生相关工作

围绕AuFIN数据集，已衍生出一系列经典研究工作，包括基于深度学习的权威用户排序模型和跨语言检索框架的优化。相关成果发表在信息处理与管理等期刊，并扩展至CLEF等国际评测任务中，推动了社交媒体权威发现任务的标准化。这些工作不仅深化了对阿拉伯语用户行为模式的理解，还为多语言谣言验证系统的构建提供了可复现的基准，促进了计算社会科学与自然语言处理领域的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集