Media Bias Identification Benchmark (MBIB)

Name: Media Bias Identification Benchmark (MBIB)
Creator: 康斯坦茨大学
Published: 2023-04-26 04:49:55
License: 暂无描述

arXiv2023-04-26 更新2024-06-21 收录

下载链接：

https://github.com/Media-Bias-Group/MBIB

下载链接

链接失效反馈

官方服务：

资源简介：

Media Bias Identification Benchmark (MBIB) 是由康斯坦茨大学的Martin Wessel等人创建的第一个媒体偏见识别基准任务和数据集集合。该数据集包含22个子数据集，涵盖了语言、认知、政治等多种类型的媒体偏见。MBIB旨在通过一个统一的框架测试潜在的偏见检测技术如何泛化。数据集通过广泛的文献搜索，从115个相关数据集中精选而出。MBIB的应用领域广泛，旨在解决媒体偏见检测中的多任务问题，推动开发更强大的系统，并促进媒体偏见检测评估的范式转变，使其能够同时处理多种媒体偏见类型。

Media Bias Identification Benchmark (MBIB) is the first media bias identification benchmark task and dataset collection developed by Martin Wessel et al. from the University of Konstanz. This dataset comprises 22 sub-datasets covering diverse types of media bias, including linguistic, cognitive, political and other categories. MBIB aims to evaluate the generalization performance of potential bias detection technologies via a unified framework. The dataset was curated from 115 relevant datasets through extensive literature searches. Boasting a wide range of application scenarios, MBIB is designed to address multi-task problems in media bias detection, promote the development of more robust detection systems, and facilitate a paradigm shift in media bias detection evaluation, enabling concurrent handling of multiple media bias types.

提供机构：

康斯坦茨大学

创建时间：

2023-04-26

搜集汇总

数据集介绍

构建方式

在媒体偏见检测领域，MBIB数据集的构建遵循了系统化的筛选与整合原则。研究团队通过对322篇相关文献的深入分析，从115个潜在数据集中筛选出符合标准的22个数据集，覆盖了语言偏见、认知偏见、政治偏见等九种核心偏见类型。筛选过程严格遵循六项标准，包括数据可获取性、英语语言使用、数据集规模（不低于700个数据点）、标注质量、格式统一性以及与任务的关联性。所有入选数据集均经过预处理，统一转换为包含文本ID、数据集ID、文本内容、二元标签的标准化格式，部分多分类标签通过阈值设定或类别合并实现二值化转换。这种构建方式确保了数据集的代表性与可比性，为多任务学习提供了坚实基础。

特点

MBIB数据集的核心特征体现在其全面性与多样性。作为首个媒体偏见识别基准任务集合，它系统整合了九种偏见类型，涵盖从语言表达到认知框架的多维度偏见现象。数据集来源丰富，既包含《纽约时报》等传统新闻机构的文章，也整合了Reddit、Twitter等社交媒体的内容，同时收录了维基百科的标注语句。标注机制多元，融合了众包标注、专家标注、远程标注等多种方法，标签类型涵盖二元分类、多分类及连续值标注。数据规模呈现显著差异，最大数据集BIGNEWS包含超过230万数据点，而最小数据集仅包含751个样本，这种规模分布反映了媒体偏见研究领域的数据生态现状。

使用方法

MBIB数据集的使用遵循标准化的评估框架。研究者可采用分层五折交叉验证方法，确保评估结果的稳定性与可靠性。评估指标采用微观平均F1分数与宏观平均F1分数双重体系：微观平均基于整体测试集预测计算，反映模型在大型数据集上的表现；宏观平均则对每个数据集单独计算后取平均，确保小规模数据集获得平等权重。最终媒体偏见得分由两种分数的平均值构成，同时提供各任务的独立分数以供细粒度分析。数据集提供基础版与完整版两种版本，基础版包含可直接获取的20个数据集，完整版则包含全部22个数据集，研究者可根据研究需求选择相应版本进行模型训练与性能比较。

背景与挑战

背景概述

在数字信息爆炸的时代，媒体偏见检测作为自然语言处理领域的关键议题，日益受到学术界关注。由康斯坦茨大学、哥廷根大学、捷克技术大学及日本国立情报学研究所等机构的研究人员于2023年联合创建的Media Bias Identification Benchmark（MBIB），标志着该领域首个综合性基准任务的诞生。该数据集旨在通过统一框架整合语言偏见、认知偏见、政治偏见等九类媒体偏见任务，涵盖22个精选数据集，以解决以往研究分散于单一偏见类型、缺乏标准化评估体系的核心问题。MBIB的建立不仅为模型泛化能力提供了系统化测试平台，更推动了媒体偏见检测从孤立分析向多任务协同研究的范式转变，对促进信息可信度与媒体透明度具有深远影响。

当前挑战

MBIB致力于解决的媒体偏见检测本身面临多重挑战：偏见类型具有高度复杂性，如认知偏见与政治偏见往往隐含于深层语义与语境中，导致现有模型难以准确识别；不同偏见定义在学术界尚未统一，如语言偏见的界定常介于主观表达与客观特征之间，增加了任务设计的难度。在数据集构建过程中，研究者需从115个候选数据集中筛选，面临数据稀缺性与质量不均的困境，例如报道级语境偏见因缺乏公开标注数据而暂未纳入基准。此外，数据来源的多样性（如新闻文章与社交媒体）与标注标准差异（二进制、多类别及连续标签）要求精细的预处理与归一化流程，以确保基准的一致性与可比性。

常用场景

经典使用场景

在媒体偏见检测这一复杂多任务领域，MBIB数据集作为首个综合性基准测试集合，其经典使用场景在于为各类媒体偏见识别技术提供统一的评估框架。该数据集将语言学偏见、认知偏见、政治偏见等九种偏见类型整合于同一体系下，使研究者能够系统性地测试模型在不同偏见维度上的泛化能力。通过涵盖新闻文章、社交媒体帖子、维基百科条目等多元文本来源，MBIB为自然语言处理模型提供了跨领域、跨媒介的偏见检测能力验证平台，推动了从单一偏见检测向多任务协同检测的范式转变。

衍生相关工作

MBIB数据集的发布催生了多个方向的相关研究：在模型架构方面，推动了基于多任务学习的媒体偏见检测框架发展，如Spinde等人提出的Transformer多任务学习系统；在评估方法上，启发了对宏观平均与微观平均指标的深入探讨，促进了更精细的模型性能分析范式；在数据集扩展方面，激发了针对特定偏见类型的数据集补充研究，特别是对报道级上下文偏见等数据稀缺领域的关注。该数据集还促进了与GLUE、SuperGLUE等通用语言理解基准的对话，推动了领域专用基准与通用基准的方法论融合。

数据集最近研究