MuSaRoNews
收藏arXiv2025-04-10 更新2025-04-15 收录
下载链接:
http://arxiv.org/abs/2504.07826v1
下载链接
链接失效反馈官方服务:
资源简介:
MuSaRoNews是一个针对罗马尼亚新闻文章的多领域、多模态讽刺检测数据集,由罗马尼亚科学与技术大学POLITEHNICA Bucharest创建。该数据集包含117,834篇新闻文章,来源于真实和讽刺性的罗马尼亚新闻网站,分为标题和图像、文本和图像两种模态。数据集覆盖社会、政治、体育、经济、全球新闻、健康和科学等多个领域,旨在解决讽刺新闻检测问题。
提供机构:
罗马尼亚科学与技术大学POLITEHNICA Bucharest
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
MuSaRoNews数据集的构建采用了多源数据采集策略,从罗马尼亚多个新闻网站中爬取了117,834篇新闻文章,涵盖真实新闻和讽刺新闻两类。数据采集过程中,特别关注了标题、主图、正文、作者和主题等关键元素,确保数据的完整性和多样性。为了构建多领域数据集,研究者从不同新闻板块(如社会、政治、体育等)进行爬取,并对主题标签进行了统一映射。数据预处理阶段,通过正则表达式清理文本,移除标记标签和多余空格,并利用Spacy的命名实体识别模型对实体进行匿名化处理,以避免模型学习到特定实体的偏见。最终,数据集以两种形式提供:正文与图像、标题与图像。
特点
MuSaRoNews数据集作为罗马尼亚语中首个多模态讽刺检测语料库,具有显著的领域多样性和模态丰富性。数据集覆盖了社会、政治、体育、经济、全球新闻、健康和科学七大领域,且包含21,466篇讽刺新闻和96,368篇主流新闻,分布呈现不平衡性。其多模态特性体现在同时提供文本(标题或正文)和图像数据,为讽刺检测任务提供了更全面的上下文信息。数据集的另一特点是主题分布的差异性,讽刺新闻多集中于社会领域,而主流新闻则偏向全球新闻,反映了现实中的内容生产偏好。此外,文本长度分析显示讽刺新闻普遍短于主流新闻,为模型设计提供了重要参考。
使用方法
MuSaRoNews数据集的使用需结合多模态学习方法,充分发挥文本与图像的互补优势。研究者可采用预训练的罗马尼亚语BERT模型提取文本特征,同时利用VGG-19等视觉模型处理图像信息。实验表明,联合使用双模态特征能显著提升分类性能,较单模态方法提高2-3%的准确率。为评估模型泛化能力,建议采用论文提供的官方数据划分(训练60%、验证20%、测试20%),确保作者级别的数据隔离以避免风格泄露。对于领域适应研究,可通过调整λ参数探索不同领域间的知识迁移效果。使用时应特别注意数据不平衡问题,可采用重采样或代价敏感学习等技术。为遵守伦理规范,图像数据需联系作者获取,并仅限于学术研究用途。
背景与挑战
背景概述
MuSaRoNews数据集由罗马尼亚布加勒斯特理工大学的研究团队于2025年创建,旨在解决罗马尼亚语新闻中讽刺内容检测的多模态挑战。该数据集包含117,834篇来自真实与讽刺新闻源的公开文章,涵盖社会、政治、体育等七个领域,是首个针对罗马尼亚语的多模态讽刺检测语料库。其创新性在于同时整合文本与图像模态,通过实验证明多模态融合能显著提升检测性能,填补了该语言资源在跨模态分析领域的空白。
当前挑战
该数据集面临双重挑战:在领域问题层面,讽刺检测需区分表面含义与实际意图的微妙差异,传统单模态方法难以捕捉文本与图像间的矛盾线索(如配图与文字的反讽关系);在构建过程中,数据获取受限于罗马尼亚讽刺新闻源稀少且发布频率低,导致类别不平衡(讽刺类仅占18.2%)。此外,匿名化处理虽避免模型依赖特定实体,但增加了语义理解的难度,而跨领域主题分布偏差(如讽刺类集中于社会话题)进一步加剧了建模复杂性。
常用场景
经典使用场景
MuSaRoNews数据集在讽刺检测领域具有广泛的应用场景,尤其在多模态数据分析方面表现突出。通过结合文本和图像两种模态,该数据集能够有效识别罗马尼亚新闻文章中的讽刺内容。其经典使用场景包括自然语言处理任务中的讽刺检测、多模态情感分析以及跨领域适应性研究。数据集的多样性和规模使其成为研究讽刺性新闻传播机制的重要工具。
解决学术问题
MuSaRoNews数据集解决了讽刺检测领域中单一模态分析的局限性问题。传统方法仅依赖文本分析,难以捕捉讽刺性新闻中表面含义与实际意图的不一致性。该数据集通过引入多模态信息,显著提升了讽刺检测的准确性。此外,其跨领域的设计为研究不同主题下讽刺表达的差异性提供了可能,推动了讽刺检测模型的泛化能力研究。
衍生相关工作
MuSaRoNews数据集已衍生出多项经典研究工作,包括基于多模态融合的讽刺检测模型和跨领域适应性算法。例如,研究者利用该数据集开发了结合BERT文本特征和VGG-19图像特征的分类模型,显著提升了讽刺检测的性能。此外,该数据集还被用于探索无监督领域自适应方法在讽刺检测中的应用,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



