five

FigNews 2024 Multilingual Bias and Propaganda Corpus

收藏
arXiv2024-07-12 更新2024-07-17 收录
下载链接:
https://sina.birzeit.edu/fada
下载链接
链接失效反馈
官方服务:
资源简介:
FigNews 2024多语言偏见与宣传语料库由比尔宰特大学主导创建,旨在分析社交媒体中的偏见和宣传现象。该数据集包含12,000条Facebook帖子,覆盖五种语言,涉及特定战争事件。数据集的创建通过法律专业研究生的手动标注完成,确保了数据的高质量。该数据集主要应用于社交媒体内容的自动偏见和宣传检测,有助于理解和应对社交媒体中的信息失真问题。

The FigNews 2024 Multilingual Bias and Propaganda Corpus was developed under the leadership of Birzeit University, with the aim of analyzing bias and propaganda phenomena on social media. This dataset contains 12,000 Facebook posts covering five languages and related to specific wartime events. The dataset was annotated manually by graduate students majoring in law, which ensures its high data quality. It is primarily used for automatic bias and propaganda detection of social media content, and contributes to understanding and addressing information distortion issues on social media.
提供机构:
比尔宰特大学
创建时间:
2024-07-12
原始信息汇总

Fada - Social Computing 数据集概述

数据集描述

Fada 数据集提供了一系列用于分析社交媒体平台和大型语言模型(LLMs)中言论的开源语料库和模型,涵盖了网络霸凌、仇恨言论、偏见、宣传、AI伦理等多个领域。

数据集详情

1. 希伯来语中的攻击性语言检测

  • 描述: 包含16,000条希伯来语推文的数据集和微调的BERT模型。每条推文被标记为:(1)攻击类型(仇恨、辱骂、种族主义和暴力、色情),(2)攻击目标,(3)攻击中使用的表达,以及(4)攻击的主题或原因。
  • 下载链接:
  • 相关文章: 阅读更多

2. 社交媒体中的偏见和宣传检测

  • 描述: 包含12,000条Facebook帖子,涉及五种语言(阿拉伯语、希伯来语、英语、法语、印地语),每种语言2,400条,手动标注了偏见和宣传。数据收集自2023年10月7日至2024年1月31日的以色列对加沙的战争期间。
  • 下载链接: Github
  • 相关文章: 阅读更多

3. 大型语言模型中偏见检测的基准

  • 描述: 包含1,800对ChatGPT响应的数据集,用于分析与巴勒斯坦和以色列相关的潜在偏见。数据集涵盖了国际人权法的30篇文章,每篇文章约60对。每对由12名受过良好训练的法律硕士学生手动分类为三类之一(偏见于巴勒斯坦、偏见于以色列、无偏见)。
  • 状态: 即将推出
搜集汇总
数据集介绍
main_image_url
构建方式
FigNews 2024 Multilingual Bias and Propaganda Corpus 是一个包含12,000条Facebook帖子的多语言语料库,这些帖子涉及2023年10月7日至2024年1月31日加沙战争期间的各种事件。该语料库由来自验证Facebook账户的15,000条帖子构成,涵盖阿拉伯语、希伯来语、英语、法语和印地语五种语言,每种语言2,400条帖子。构建过程中,首先选取了1,200条帖子作为标注训练集,然后分两个阶段完成12批次的标注工作,每批包含1,000条帖子。标注过程由10名法学专业的研究生完成,并采用10名标注者之间的互注一致性(IAA)来评估标注质量,确保了标注的准确性和一致性。
特点
该数据集的特点在于:多语言覆盖,包含阿拉伯语、希伯来语、英语、法语和印地语五种语言;针对偏见和宣传进行了全面标注,不仅标注了是否存在偏见和宣传,还细化了偏见的类型和宣传的删除建议;标注过程严谨,由专业的研究生团队完成,并通过互注一致性(IAA)评估保证了标注质量。
使用方法
使用该数据集时,用户可以根据具体的研究需求,选择不同语言的数据子集进行偏见和宣传的检测研究。数据集的开放源代码和可用性使其便于集成到各种自然语言处理工具和平台中。同时,数据集提供的详细标注信息,有助于训练和评估自动检测偏见和宣传的机器学习模型。
背景与挑战
背景概述
FigNews 2024 Multilingual Bias and Propaganda Corpus是一个由12,000个Facebook帖子组成的多元语言语料库,旨在揭示与以色列战争相关的社交媒体论述中的偏见和宣传。该语料库的创建作为FigNews 2024共享任务的一部分,聚焦于构建新闻媒体叙述框架。这些帖子覆盖了从2023年10月7日至2024年1月31日之间的各种事件。研究团队由Lina Duaibes、Areej Jaber、Mustafa Jarrar、Ahmad Qadi和Mais Qandeel等组成,他们分别来自Birzeit University、Palestine Technical University-Khadoorie、7amleh Center和ÖREBRO University等机构。该语料库对于检测社交媒体上的偏见和宣传具有重要意义,其创建旨在促进自然语言处理领域在特定领域的合作和研究。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 如何准确识别和标注偏见和宣传,尤其是在多元语言环境中;2) 确保标注的一致性和准确性,这需要跨语言和文化背景的协调;3) 处理主观性 interpretation带来的困难,特别是在涉及敏感话题时;4) 识别和纠正标注过程中的错误,例如错误地将中性内容标记为偏见或宣传。此外,构建过程中的挑战还包括如何处理引用内容,以及如何在不同语言之间保持标注标准的一致性。
常用场景
经典使用场景
FigNews 2024 Multilingual Bias and Propaganda Corpus是一个涵盖五语言(阿拉伯语、希伯来语、英语、法语和印地语)的12,000条Facebook帖子数据集,这些帖子涉及2023年10月7日至2024年1月31日间加沙战争的各种事件。该数据集的经典使用场景在于,研究者和开发者可以利用它来训练和测试自然语言处理模型,旨在自动检测社交媒体内容中的偏见和宣传。
实际应用
在实际应用中,FigNews 2024 Multilingual Bias and Propaganda Corpus可以被用于社交媒体平台的内容审核系统,帮助识别和过滤具有偏见和宣传性质的信息,从而维护网络环境的公正性和客观性。此外,该数据集还可以为新闻机构和媒体提供参考,以提升新闻报道的公正性和透明度。
衍生相关工作
基于FigNews 2024 Multilingual Bias and Propaganda Corpus,已经衍生出了一系列相关工作,包括对数据集的进一步分析、改进检测算法的研究,以及在不同文化和语言环境中对偏见和宣传的识别研究。这些衍生工作不仅推动了学术界对偏见和宣传检测技术的深入探讨,也为实际应用提供了更多的方法和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作