CrossNews-UA

Name: CrossNews-UA
Creator: 慕尼黑工业大学 (TUM), 慕尼黑机器学习中心 (MCML), 慕尼黑数据科学研究所
Published: 2025-10-22 22:23:50
License: 暂无描述

arXiv2025-10-22 更新2025-11-05 收录

下载链接：

https://github.com/TUM-NLP/crossnews-ua

下载链接

链接失效反馈

官方服务：

资源简介：

CrossNews-UA是一个跨语言的新闻语义相似度数据集，以乌克兰语为中心语言，包括波兰语、俄语和英语的新闻对。数据集中的每对新闻都被标注了语义相似度，并基于4W标准（谁、什么、哪里、何时）提供了详细的解释。该数据集通过可扩展的众包流程收集，旨在解决多语言新闻分析中的挑战，并支持外部验证信息。

提供机构：

慕尼黑工业大学 (TUM), 慕尼黑机器学习中心 (MCML), 慕尼黑数据科学研究所

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

在跨语言新闻分析领域，构建高质量数据集面临可扩展性与语言覆盖的挑战。CrossNews-UA采用创新的众包流程，通过自动化新闻采集与结构化标注机制，以乌克兰语为核心，整合波兰语、俄语和英语的新闻对。数据收集依托语义关键词提取与多轮检索策略，并基于新闻学4W框架设计多维标注体系，确保数据构建兼具可复现性与语言适应性。

特点

该数据集显著特点在于其解释性标注架构与语言多样性。每个新闻对均包含基于主体、时间、地点、事件四个维度的语义相似性评分，并辅以人工撰写的理由说明，为可解释性研究提供丰富语料。覆盖乌克兰语与三种语境相关语言的组合，有效弥补了斯拉夫语系资源空白，同时通过严格的质量控制机制保障标注一致性，为跨语言新闻理解建立新基准。

使用方法

该数据集适用于跨语言新闻语义相似度计算与可解释性分析研究。使用者可基于四维度分类标签训练多任务模型，或利用开放式解释文本开发生成式评估系统。基准测试表明，嵌入模型与生成式语言模型均可作为基础架构，建议结合多语言预训练模型进行微调，并注意时序信息与命名实体对齐等挑战，以提升跨语言场景下的语义捕捉能力。

背景与挑战

背景概述

在社交媒体与虚假信息迅速传播的时代，跨语言新闻分析成为确保信息真实性的关键技术。2025年，慕尼黑工业大学与慕尼黑机器学习中心的研究团队Daryna Dementieva等人提出了CrossNews-UA数据集，聚焦于乌克兰语、波兰语、俄语和英语的新闻语义相似性评估。该数据集通过可扩展的众包标注流程构建，旨在解决传统依赖专家标注导致的资源稀缺与语言覆盖不足问题，尤其填补了乌克兰语在跨语言新闻验证研究中的空白。其核心研究问题在于通过多维语义对比（如事件主体、时间、地点与内容）提升虚假信息检测的可靠性与可解释性，为低资源语言的自然语言处理研究提供了重要基准。

当前挑战

CrossNews-UA面临的挑战主要体现在领域问题与构建过程两方面。在领域层面，跨语言新闻相似性评估需克服语言差异导致的实体表述不一致性，例如同一事件中的人物名称在不同语言中的变体可能影响模型判断；同时，时间信息的模糊性与新闻内容的动态性增加了语义对齐的复杂度。在构建过程中，数据采集需应对多语言新闻源的结构异质性，而众包标注的质量控制成为关键难题，包括如何通过自动化工具（如大语言模型辅助）与人工审核结合确保标注一致性，并避免敏感内容对标注者心理的影响。此外，数据集的规模限制与标签分布不均衡也为模型泛化能力带来持续考验。

常用场景

经典使用场景

在跨语言新闻分析领域，CrossNews-UA数据集为研究多语言新闻语义相似性提供了标准化评估基准。该数据集通过构建乌克兰语与波兰语、俄语、英语的新闻对，结合4W准则（Who、What、Where、When）的细粒度标注，成为验证跨语言信息检索模型性能的核心工具。其典型应用包括训练和评估多语言Transformer架构、语义编码器及大语言模型在新闻内容对齐任务中的表现，尤其侧重于解决低资源语言在语义表示中的泛化能力问题。

实际应用

在信息生态治理实践中，CrossNews-UA支持构建多语言假新闻检测系统，通过对比不同语言版本的新闻报道内容，识别潜在的信息矛盾与事实偏差。该数据集可用于开发跨境舆情监测工具，帮助机构追踪重大事件（如政治选举、公共卫生危机）在多语种媒体中的传播一致性。此外，其结构化标注范式为跨国新闻聚合平台提供了内容去重与跨语言摘要生成的技术基础，强化了多语言信息环境的协同验证机制。

衍生相关工作

基于该数据集的设计理念，后续研究衍生出多语言文档嵌入优化方法，如改进E5-large模型在斯拉夫语系的语义空间对齐能力。其标注框架被扩展至SemEval-2022任务8的后续工作中，推动了如动态实体链接、时序感知相似性计算等方向的发展。部分研究进一步融合其解释性标注数据，训练生成式模型自动生成新闻对比依据，为可解释人工智能在跨语言场景中的应用提供了范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集