NewsWCL50r
收藏arXiv2026-02-19 更新2026-02-21 收录
下载链接:
https://github.com/anastasia-zhukova/NewsWCL50r
下载链接
链接失效反馈官方服务:
资源简介:
NewsWCL50r是由哥廷根大学等机构联合开发的跨文档共指消解数据集,聚焦新闻领域中的词汇多样性和媒体偏见分析。该数据集通过重构标注方案,将共指链定义为话语元素(DEs),涵盖实体、事件和概念三类核心要素,支持身份关系和近身份关系的标注。数据来源于新闻文本,采用统一编码手册对原始NewsWCL50和ECB+子集进行重新标注,最终形成兼具细粒度与高词汇多样性的语料。其应用方向包括媒体话语分析、政治立场检测及自然语言处理模型的鲁棒性评估。
NewsWCL50r is a cross-document coreference resolution dataset co-developed by the University of Göttingen and other institutions, focusing on lexical diversity and media bias analysis in the news domain. This dataset adopts a reconstructed annotation scheme, which defines coreference chains as discourse elements (DEs) covering three core categories: entities, events, and concepts, and supports annotation of both identity and near-identity relations. The dataset is sourced from news texts, and the original NewsWCL50 and ECB+ subsets were re-annotated using a unified coding manual, ultimately forming a corpus with both fine-grained features and high lexical diversity. Its application directions include media discourse analysis, political stance detection, and robustness evaluation of natural language processing models.
提供机构:
哥廷根大学; 洪堡大学; 苏黎世大学
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
在跨文档共指消解领域,NewsWCL50r数据集的构建体现了对现有标注范式的精炼与平衡。该数据集通过对原始NewsWCL50语料库进行系统性重标注而创建,其核心在于采纳了一套修订后的标注方案。该方案将共指链明确视为话语元素,并严格遵循身份与近身份关系的定义。构建过程中,标注者将原先过于宽泛的概念拆分为多个更精细的话语元素,确保每个元素内的提及项通过共指、部分整体或转喻等关系相连。同时,标注范围从最小跨度扩展至最大跨度,以捕捉文本中完整的词汇变异,并补充了先前遗漏的提及项与小规模概念,从而实现了标注粒度与语义连贯性的统一。
使用方法
NewsWCL50r数据集主要服务于自然语言处理领域中对跨文档共指消解模型的开发与评估,尤其适用于分析具有高度词汇变异和媒体框架差异的新闻语料。研究者可利用该数据集训练模型识别并链接跨越多个文档的实体、事件及概念提及,特别是那些通过近身份、部分整体或评价性标签等非严格等价关系相连的提及项。在具体应用中,该数据集可用于评测模型在复杂语义关系下的泛化能力,亦可用于支持大规模的媒体内容分析,以探究新闻报道中的偏见、框架转换与话语策略。数据集的标注文件与配套代码本已公开,便于研究者复现实验或将其整合至现有的模型训练与评估流程中。
背景与挑战
背景概述
跨文档共指消解(CDCR)作为自然语言处理领域的关键任务,旨在识别并关联不同文档中对同一实体或事件的指称,为话语层面的信息聚合提供基础。然而,现有基准数据集如ECB+主要聚焦于事件消解,其严格的共指定义难以适应新闻语料中因立场差异而产生的丰富词汇变异。为应对这一局限,由哥廷根大学、洪堡大学及苏黎世大学的研究团队于2026年提出了NewsWCL50r数据集。该数据集基于NewsWCL50进行重构,通过引入话语元素(DEs)作为分析单元,并兼容严格共指与近似共指关系,系统性地标注了新闻文本中具有高度词汇多样性的指称链。其核心研究在于推动CDCR模型超越传统的严格等价匹配,从而更精准地捕捉媒体话语中的框架差异与偏见表达,为计算社会科学与媒体分析领域的交叉研究提供了新的数据基础。
当前挑战
NewsWCL50r数据集致力于解决跨文档共指消解在真实新闻场景下面临的核心挑战:如何建模并解析媒体话语中广泛存在的词汇变异与近似指称关系。具体而言,其构建过程需应对双重困难:在领域问题层面,模型必须识别并关联语义松散但指向同一实体的多样化表达,例如隐喻、转喻、委婉语及评价性措辞,这要求消解系统具备深层次的语境理解与语义推理能力;在数据构建层面,标注工作需在保持共指链语义连贯性的前提下,平衡标注粒度与词汇多样性,避免原有数据集中存在的标注过宽或过窄问题,并通过统一标注框架实现不同领域新闻语料的可比性与一致性,这对标注指南的设计与标注质量控制提出了极高要求。
常用场景
经典使用场景
在自然语言处理领域,跨文档共指消解研究长期面临词汇多样性不足的挑战,NewsWCL50r数据集通过引入精细化的标注方案,为模型训练与评估提供了经典场景。该数据集特别适用于分析政治新闻中实体与事件的多样化表述,例如将“移民队伍”、“寻求庇护者”与“考虑非法入境者”等近义表达纳入同一共指链,从而模拟真实媒体话语中因立场差异而产生的词汇变异。研究者可借助该数据集开发能够识别松散共指关系的模型,推动共指消解技术向更深层次的语义理解迈进。
解决学术问题
传统跨文档共指消解数据集如ECB+侧重于严格的身份关系,难以捕捉新闻语料中广泛存在的近义、隐喻或委婉表达,限制了模型在媒体偏见分析等复杂场景中的应用。NewsWCL50r通过整合身份与近身份关系,并采用话语元素作为分析单元,有效解决了词汇多样性缺失的问题。该数据集使模型能够学习识别语义上相关但表述各异的指代项,为研究媒体框架转换、话语策略分析提供了可靠的数据基础,弥合了计算语言学与社会科学之间的方法论隔阂。
实际应用
在实际应用中,NewsWCL50r为大规模新闻内容分析提供了有力工具。媒体机构可利用该数据集训练系统,自动追踪同一事件在不同报道中的表述差异,从而识别潜在的偏见或框架效应。例如,在分析移民议题时,系统能关联“caravan”、“asylum seekers”等多样化词汇,揭示媒体如何通过选词影响公众认知。此外,该数据集还可用于舆情监测、政治传播研究等领域,帮助研究者量化话语策略,提升对公共议题理解的客观性与深度。
数据集最近研究
最新研究方向
在跨文档共指消解领域,NewsWCL50r数据集的推出标志着对新闻文本中词汇多样性和语义灵活性建模的前沿探索。该数据集通过重构标注方案,将共指链视为话语元素,并纳入身份与近身份关系,如隐喻、转喻和委婉语等松散指代形式,从而更精准地捕捉媒体话语中的框架变异和词汇选择差异。这一进展不仅提升了模型在极化新闻内容中的共指消解鲁棒性,还为大规模媒体偏见分析和话语研究提供了计算基础,推动了自然语言处理与社会科学的交叉融合。
相关研究论文
- 1Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference哥廷根大学; 洪堡大学; 苏黎世大学 · 2026年
以上内容由遇见数据集搜集并总结生成



