SPICED
收藏arXiv2023-09-21 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/8044777
下载链接
链接失效反馈官方服务:
资源简介:
SPICED数据集由都柏林理工大学创建,包含977对新闻文章,涉及犯罪与法律、文化与娱乐、灾难与事故、经济与商业、政治与冲突、科学与技术、体育等七个主题。数据集通过多种方法生成新闻对,旨在提高模型在新闻相似性检测任务中的性能。创建过程中,使用了SimHash、SBERT等技术进行数据筛选和标注,确保数据质量。该数据集适用于开发和评估新闻相似性检测系统,特别是在处理跨主题和复杂度不同的新闻内容时。
The SPICED dataset was created by Dublin Institute of Technology. It consists of 977 pairs of news articles covering seven topics: crime and law, culture and entertainment, disaster and accident, economy and business, politics and conflict, science and technology, and sports. The dataset generates news pairs through multiple methods, aiming to improve the performance of models in news similarity detection tasks. During the creation process, technologies such as SimHash and SBERT were used for data filtering and annotation to ensure data quality. This dataset is suitable for developing and evaluating news similarity detection systems, especially when dealing with news content across different topics and varying complexities.
提供机构:
都柏林理工大学
创建时间:
2023-09-21
搜集汇总
数据集介绍

构建方式
在新闻相似性检测领域,SPICED数据集的构建体现了严谨的学术流程。其核心素材来源于WikiNews平台,该平台遵循严格的新闻撰写规范,确保了原始数据的权威性与结构性。构建过程始于对七大热门新闻类别的网页爬取,随后通过多级过滤机制精炼数据:首先利用SimHash算法进行初步相似性筛选,继而通过验证文章同源性与SBERT模型进行深度语义匹配,最后经由专家依据既定标准进行人工标注,并移除重复样本,最终形成了包含977对相似新闻的高质量黄金标准数据集。
特点
SPICED数据集的显著特征在于其精心设计的层次化结构与多维度复杂性。它不仅覆盖了犯罪与法律、文化与娱乐、灾难与事故、经济与商业、政治与冲突、科学与技术以及体育等七个核心新闻领域,还通过四种独特的配对构建方法——跨主题、主题内、困难样本及组合方法——生成了32个衍生数据集。这种设计使得数据集能够模拟从易于区分的跨主题差异到极具挑战性的主题内细微差别等多种真实场景,为模型评估提供了丰富的粒度与难度阶梯。
使用方法
该数据集为新闻相似性检测任务提供了系统性的评估框架。研究者可依据具体目标,选择使用其提供的不同配对方法生成的子集进行模型训练与测试。例如,跨主题数据集适用于评估模型区分宏观领域差异的能力,而主题内及困难样本数据集则能有效检验模型捕捉同一主题下细微语义差别的性能。数据集已使用MinHash、BERT、SBERT和SimCSE等主流模型进行了基准测试,用户可参照此基准评估新模型的优劣,推动该领域的技术发展。
背景与挑战
背景概述
随着互联网新闻媒体的激增,智能系统在检测新闻冗余信息方面日益重要,以提升用户体验。然而,新闻的异质性可能导致系统产生虚假发现,例如简单的启发式方法(如判断新闻是否同属政治类别)可能带来误导性的下游性能。将新闻相似性数据集按主题细分,能迫使模型在更狭窄的领域内学习区分显著特征,从而改善训练效果,但这需要特定主题的数据集,而当前此类资源匮乏。为此,2023年由Technological University Dublin和Huawei Ireland Research Centre等机构的研究人员推出了SPICED数据集,专注于新闻相似性检测任务,涵盖犯罪与法律、文化与娱乐、灾难与事故、经济与商业、政治与冲突、科学与技术及体育七个主题,旨在解决多主题新闻相似性检测的挑战,推动相关领域模型的发展。
当前挑战
SPICED数据集致力于解决新闻相似性检测领域的核心挑战,即如何准确识别跨主题及同主题新闻间的语义相似性,避免因新闻异质性导致的误判。具体挑战包括:在领域问题层面,模型需区分不同主题新闻间的表面相似性与深层语义关联,例如政治新闻的模糊性高于体育新闻,增加了相似性判别的复杂度;在构建过程中,数据集创建面临新闻长度差异大、信息不对称、观点性内容排除、数值一致性验证以及发布时间接近性要求等难题,需通过SimHash、SBERT等多重过滤与专家标注确保数据质量,同时平衡各主题样本数量,避免偏差。
常用场景
经典使用场景
在新闻文本相似性检测领域,SPICED数据集以其多主题和复杂性分层的特性,为研究者提供了评估模型在跨主题和主题内相似性判别能力的标准平台。该数据集涵盖了犯罪与法律、文化与娱乐、灾难与事故、经济与商业、政治与冲突、科学与技术以及体育七个主题,通过精心设计的新闻对生成方法,模拟了真实新闻环境中从简单到复杂的相似性场景。经典使用场景包括利用其分层结构训练和测试语义相似性模型,如SBERT和SimCSE,以探索模型在不同主题泛化性和细粒度区分上的表现。
解决学术问题
SPICED数据集主要解决了新闻相似性检测中因主题异质性导致的模型性能偏差问题。传统语义文本相似性数据集往往局限于单一主题,难以捕捉新闻内容的多样性和结构性差异,使得模型可能依赖表面特征而非深层语义。该数据集通过提供跨主题和主题内的新闻对,并引入硬负例样本,迫使模型学习更具判别性的特征,从而提升在复杂新闻场景下的鲁棒性。其意义在于推动了多主题相似性检测方法的发展,为构建更智能的新闻去重和聚合系统奠定了数据基础。
衍生相关工作
基于SPICED数据集,研究者已开展多项经典工作,进一步拓展了新闻相似性检测的边界。例如,有研究利用其多主题结构探索主题自适应相似性模型,通过迁移学习提升跨领域性能。另一类工作则聚焦于硬负例挖掘策略,结合对比学习框架如SimCSE,增强模型对细微差异的敏感性。此外,该数据集还被用于评估多语言新闻相似性方法的泛化能力,促进了跨语言信息整合技术的发展。这些衍生工作共同推动了自然语言处理在新闻领域的应用深化。
以上内容由遇见数据集搜集并总结生成



