SpanishMicroEvents

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/martsola/SpanishMicroEvents

下载链接

链接失效反馈

官方服务：

资源简介：

SpanishMicroEvents 是首个公开可用的西班牙语细粒度新闻微事件检测与检索多模态数据集。该数据集包含来自单一西班牙媒体（2018-2024年）的13,831篇新闻文章，通过结合神经主题建模和混合时间分割的两阶段构建流程，组织成1,632个微事件。每篇文章由三种模态表示：文本（多语言E5-small嵌入，384维）、图像（CLIP ViT-B/32嵌入，512维，每个唯一MD5图像哈希对应一个嵌入）和时间（每个微事件的每日发布密度信号）。数据集文件包括文章级数据（articles.parquet）、微事件摘要表（micro_events.csv）、文本和图像嵌入文件（embeddings_e5_small.npy和embeddings_clip_articulos.npy）以及手动标注的质量样本（validation_sample.csv）。数据集适用于文本检索、文本分类等任务，特别适用于新闻事件检索和多模态研究。

创建时间：

2026-04-01

原始信息汇总

SpanishMicroEvents 数据集概述

数据集基本信息

名称: SpanishMicroEvents
语言: 西班牙语 (es)
许可证: CC BY 4.0
任务类别: 文本检索、文本分类
任务ID: 文档检索
规模: 10K < n < 100K
标签: 新闻、事件、多模态、西班牙语、检索、CLIP、BERTopic
时间跨度: 2018–2024
论文: SpanishMicroEvents: A Multimodal Dataset for Fine-Grained News Event Retrieval in Spanish — Under review.

核心描述

SpanishMicroEvents 是首个公开可用的西班牙语细粒度新闻微事件检测与检索多模态数据集。它包含来自单一西班牙媒体（2018–2024年）的13,831篇新闻文章，通过结合神经主题建模和混合时间分割的两阶段构建流程，组织成1,632个微事件。

数据集结构

文件列表

文件	描述
`articles.parquet`	主文章级数据集（13,831行 × 14列）
`micro_events.csv`	微事件摘要表（1,632行）
`embeddings_e5_small.npy`	与 `articles.parquet` 1:1对齐的文本嵌入（N × 384）
`embeddings_clip_articulos.npy`	与 `articles.parquet` 1:1对齐的CLIP图像嵌入（N × 512）
`validation_sample.csv`	手动标注的质量样本（50个微事件）

`articles.parquet` 列参考

列名	类型	来源	描述
`id`	int	原始语料库	唯一文章标识符
`url`	str	原始语料库	文章URL
`publication_date`	datetime	原始语料库	发布时间戳
`headline`	str	原始语料库	文章标题
`article_body`	str	原始语料库	完整文章正文
`description`	str	原始语料库	文章描述/摘要
`image_hash`	str	原始语料库	相关图像的MD5哈希值
`named_entities`	list[dict]	`phase0_corpus_enrichment`	使用Stanza提取的命名实体（字段：`text`, `type`；类型：PER, ORG, LOC, MISC）
`dbpedia_entities_raw`	list[dict]	`phase0_corpus_enrichment`	去重前的原始DBpedia实体链接输出（字段：`text`, `uri`, `types`）
`named_entities_dbpedia`	list[dict]	`phase0_corpus_enrichment`	去重后的DBpedia链接实体（字段：`text`, `uri`, `types`）
`date_mentions`	list[str]	`phase0_corpus_enrichment`	文本中检测到的原始日期提及
`extracted_dates`	list[str]	`phase0_corpus_enrichment`	从文本中提取的标准化日期表达式
`micro_event_id`	str	`phase2_temporal_segmentation`	微事件标识符。格式：`"{topic_id}"`（原子事件）或 `"{topic_id}_{segment}"`（分割簇）。值 `"-1"` 表示文章未分配到任何有效微事件（单例或孤立爆发）。
`event_label`	str	`phase2_temporal_segmentation`	微事件的即时标签：前4个BM25加权c-TF-IDF术语，通过Porter词干去重（例如 `"ábalos_fiscal_koldo_corrupción"`）。

`micro_events.csv` 列参考

列名	类型	描述
`micro_event_id`	str	微事件标识符（与 `articles.parquet` 匹配）
`label`	str	即时事件标签
`start_date`	date	首篇文章日期
`end_date`	date	最后一篇文章日期
`n_articles`	int	事件中的文章数量
`source_cluster_id`	int	第1阶段的起源簇
`route`	str	`"A"`（时间分割）或 `"B"`（原子，绕过）
`duration_days`	int	持续时间（天数，`end_date − start_date`）

`validation_sample.csv` 列参考

列名	类型	描述
`micro_event_id`	str	微事件标识符
`n_articles`	int	文章数量
`duration_days`	int	持续时间（天数）
`label`	str	即时事件标签
`representative_headline`	str	代表性标题
`remaining_headlines`	str	其余标题（管道分隔）
`annotation`	str	手动标注：`C` = 正确，`P` = 部分正确，`N` = 非事件
`notes`	str	自由文本标注说明

关键统计信息

统计项	值
文章总数	13,831
有效微事件中的文章数	4,418 (31.9%)
微事件总数	1,632
平均每微事件文章数	2.71
中位数每微事件文章数	2
第1阶段簇的中位数事件持续时间	190天
第2阶段微事件的中位数事件持续时间	3天
持续时间缩减因子	63×
具有CLIP嵌入的文章数	12,713 (91.9%)
唯一图像哈希数	12,789

数据模态

每篇文章由三种模态表示：

文本: 多语言E5-small嵌入（384维）
图像: CLIP ViT-B/32嵌入（512维），每个唯一MD5图像哈希对应一个
时间: 每个微事件的每日发布密度信号

构建流程

数据集通过一个五阶段流程构建，每个阶段对应一个Jupyter笔记本。

阶段0 — 语料库丰富 (`phase0_corpus_enrichment.ipynb`)

原始语料库的摄取和丰富：文本规范化、使用Stanza的NER（→ named_entities）、时间表达式提取（→ date_mentions, extracted_dates）以及DBpedia实体链接（→ named_entities_dbpedia）。

阶段1 — 语义微聚类 (`phase1_semantic_clustering.ipynb`)

在多语言E5-small嵌入上使用BERTopic和HDBSCAN（min_cluster_size=6），通过UMAP投影到5维。通过Ward凝聚聚类拯救噪声文章。产生3,577个标记的语义簇。 质量指标: $C_v = 0.62$，轮廓系数（原始嵌入）$= 0.006$，内部/外部距离比 $= 0.637$。

阶段2 — 混合时间分割 (`phase2_temporal_segmentation.ipynb`)

双重路由（路由A：≥4篇文章 → 时间分割；路由B：<4 → 原子）。高斯平滑（σ=0.75）+ 峰值检测。三重标准分割验证器：时间间隔≥30天（70.5%的分割）、残差余弦相异度（29.5%）、命名实体Jaccard=0（约0%）。产生1,632个微事件以及 micro_event_id / event_label 列。

阶段3 — CLIP嵌入 (`phase3_clip_embeddings.ipynb`)

为每个唯一MD5图像哈希计算一次CLIP ViT-B/32嵌入，并广播到共享该哈希的所有文章。12,713/13,831篇文章具有有效嵌入；剩余的1,118篇接收零向量，并在仅图像评估中被排除。

基线检索 (`baseline_retrieval.ipynb`)

复现论文中报告的BM25、仅文本、仅图像、拼接和晚期融合检索基线。评估协议：500个采样查询，MAP@5和MAP@10。

检索基线结果

系统	P@5	R@5	MAP@5	MAP@10
随机	.0002	.0002	.0002	.0002
BM25	.1544	.3555	.2645	.2796
仅文本 (E5-small)	.0224	.0416	.0299	.0297
仅图像 (CLIP)	.0312	.0678	.0429	.0443
拼接 (E5 + CLIP)	.0372	.0710	.0485	.0514
晚期融合	.0376	.0713	.0481	.0508

手动验证

随机抽取50个微事件进行手动标注：

标注	数量	百分比
正确	13	26%
部分正确	3	6%
非事件	34	68%

68%的非事件率反映了语料库的单媒体性质：重复出现的栏目（天气、美食、观点专栏、历史文章）被主题正确分组，但并不构成离散的新闻事件。真正的聚类错误率（来自不同事件的文章被合并）仅为14%。

许可证

本数据集根据知识共享署名4.0国际许可协议 (CC BY 4.0)发布。

搜集汇总

数据集介绍

构建方式

在新闻事件检测领域，西班牙语多模态数据资源相对稀缺，SpanishMicroEvents数据集通过系统化构建流程填补了这一空白。其构建采用两阶段流水线设计，初始阶段对2018年至2024年间单一西班牙媒体来源的13,831篇新闻进行语义聚类，利用BERTopic模型结合HDBSCAN算法形成初始主题簇；第二阶段引入混合时间分割机制，通过高斯平滑与峰值检测技术对主题簇进行时序解析，最终生成1,632个细粒度微事件，将事件持续时间中位数从190天压缩至3天，实现63倍的时间粒度优化。

特点

该数据集的核心特征体现在多模态表征与细粒度事件结构的深度融合。每个新闻条目均包含文本、图像与时间三维特征：文本嵌入采用多语言E5-small模型生成384维向量，图像嵌入通过CLIP ViT-B/32模型提取512维特征，时间维度则体现为每日发布密度信号。数据集特别设计了即时生成的事件标签机制，基于BM25加权的c-TF-IDF算法自动提取核心术语，形成如“ábalos_fiscal_koldo_corrupción”这类具象化事件标识。值得注意的是，31.9%的新闻文章被成功归类至微事件，平均每个事件包含2.71篇文章，呈现出高度离散化的事件分布形态。

使用方法

对于研究者和开发者而言，该数据集为西班牙语新闻事件检索任务提供了标准化实验框架。数据加载可通过Pandas与NumPy库直接读取Parquet格式的文章数据与CSV格式的事件摘要，预计算的文本与图像嵌入向量保持严格的行对齐关系。实践应用中，用户可基于`micro_event_id`字段筛选有效事件文章，利用内置的基线检索系统比较BM25、纯文本、纯图像及多模态融合等算法的性能差异。数据集配套的验证样本包含50个手动标注的微事件，为算法评估提供质量参照，特别适用于跨模态检索、事件演化分析及时序信息挖掘等研究方向。

背景与挑战

背景概述

在新闻信息学与计算语言学交叉领域，细粒度事件检测与检索是理解新闻流动态演变的核心任务。SpanishMicroEvents数据集于2024年由研究团队构建并公开，旨在填补西班牙语多模态新闻事件数据资源的空白。该数据集聚焦于从单一西班牙语媒体源（2018年至2024年）中识别微观事件，即规模较小、时间跨度短暂的新鲜事件簇。通过融合神经主题建模与混合时间分割的两阶段管道，它将13,831篇新闻文章组织成1,632个微观事件，并提供了文本、图像与时间三种模态的嵌入表示。这一工作推动了西班牙语新闻分析向更精细、更跨模态的方向发展，为事件检索、叙事追踪等应用提供了重要基准。

当前挑战

SpanishMicroEvents数据集致力于解决西班牙语新闻中细粒度事件检测与检索的挑战，其核心问题在于如何从连续、高噪声的新闻流中准确分离出离散的微观事件。构建过程中的主要挑战包括：第一，在单一媒体源中，大量文章属于常规栏目（如天气、评论），虽能通过主题聚类分组，却并非真正的事件，导致自动标注的事件中非事件比例较高；第二，设计有效的时序分割算法以区分时间上重叠或邻近但语义不同的事件，需平衡语义相似性与时间连续性；第三，在多模态融合方面，对齐文本与图像嵌入并评估其互补性，以提升跨模态检索性能，仍存在优化空间。

常用场景

经典使用场景

在新闻事件检测与检索领域，SpanishMicroEvents数据集为西班牙语新闻的细粒度事件分析提供了首个公开的多模态基准。其经典应用场景聚焦于跨模态检索任务，研究者可利用该数据集同时整合文本、图像和时间序列信息，对新闻文章进行语义聚类与事件边界识别。通过结合E5-small文本嵌入和CLIP视觉嵌入，该数据集支持端到端的多模态检索系统开发，尤其在处理西班牙语新闻流中突发事件的精细划分与关联检索方面展现出独特价值。

解决学术问题

该数据集有效解决了新闻信息学中若干关键学术问题：首先，它填补了西班牙语多模态事件数据资源的空白，为低资源语言的事件检测研究提供了实验基础；其次，通过融合神经主题建模与混合时间分割方法，解决了传统事件检测中语义粒度粗、时间边界模糊的难题；再者，其多模态对齐结构为跨模态表示学习、异构信息融合等前沿方向提供了验证平台，推动了事件检索技术从单一模态向多模态协同的范式转变。

衍生相关工作

围绕该数据集已衍生出系列经典研究工作：基于其多模态架构，研究者提出了跨模态注意力融合机制，提升了事件检索的精度；借鉴其混合时间分割策略，后续研究发展了动态阈值的事件边界检测算法；其公开的基准检索结果（如BM25与多模态融合方法）已成为相关领域性能对比的重要参照。这些工作共同推动了西班牙语事件检测技术体系的完善，并为多语言事件数据集构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集