SpanishMicroEvents
收藏SpanishMicroEvents 数据集概述
数据集基本信息
- 名称: SpanishMicroEvents
- 语言: 西班牙语 (es)
- 许可证: CC BY 4.0
- 任务类别: 文本检索、文本分类
- 任务ID: 文档检索
- 规模: 10K < n < 100K
- 标签: 新闻、事件、多模态、西班牙语、检索、CLIP、BERTopic
- 时间跨度: 2018–2024
- 论文: SpanishMicroEvents: A Multimodal Dataset for Fine-Grained News Event Retrieval in Spanish — Under review.
核心描述
SpanishMicroEvents 是首个公开可用的西班牙语细粒度新闻微事件检测与检索多模态数据集。它包含来自单一西班牙媒体(2018–2024年)的13,831篇新闻文章,通过结合神经主题建模和混合时间分割的两阶段构建流程,组织成1,632个微事件。
数据集结构
文件列表
| 文件 | 描述 |
|---|---|
articles.parquet |
主文章级数据集(13,831行 × 14列) |
micro_events.csv |
微事件摘要表(1,632行) |
embeddings_e5_small.npy |
与 articles.parquet 1:1对齐的文本嵌入(N × 384) |
embeddings_clip_articulos.npy |
与 articles.parquet 1:1对齐的CLIP图像嵌入(N × 512) |
validation_sample.csv |
手动标注的质量样本(50个微事件) |
articles.parquet 列参考
| 列名 | 类型 | 来源 | 描述 |
|---|---|---|---|
id |
int | 原始语料库 | 唯一文章标识符 |
url |
str | 原始语料库 | 文章URL |
publication_date |
datetime | 原始语料库 | 发布时间戳 |
headline |
str | 原始语料库 | 文章标题 |
article_body |
str | 原始语料库 | 完整文章正文 |
description |
str | 原始语料库 | 文章描述/摘要 |
image_hash |
str | 原始语料库 | 相关图像的MD5哈希值 |
named_entities |
list[dict] | phase0_corpus_enrichment |
使用Stanza提取的命名实体(字段:text, type;类型:PER, ORG, LOC, MISC) |
dbpedia_entities_raw |
list[dict] | phase0_corpus_enrichment |
去重前的原始DBpedia实体链接输出(字段:text, uri, types) |
named_entities_dbpedia |
list[dict] | phase0_corpus_enrichment |
去重后的DBpedia链接实体(字段:text, uri, types) |
date_mentions |
list[str] | phase0_corpus_enrichment |
文本中检测到的原始日期提及 |
extracted_dates |
list[str] | phase0_corpus_enrichment |
从文本中提取的标准化日期表达式 |
micro_event_id |
str | phase2_temporal_segmentation |
微事件标识符。格式:"{topic_id}"(原子事件)或 "{topic_id}_{segment}"(分割簇)。值 "-1" 表示文章未分配到任何有效微事件(单例或孤立爆发)。 |
event_label |
str | phase2_temporal_segmentation |
微事件的即时标签:前4个BM25加权c-TF-IDF术语,通过Porter词干去重(例如 "ábalos_fiscal_koldo_corrupción")。 |
micro_events.csv 列参考
| 列名 | 类型 | 描述 |
|---|---|---|
micro_event_id |
str | 微事件标识符(与 articles.parquet 匹配) |
label |
str | 即时事件标签 |
start_date |
date | 首篇文章日期 |
end_date |
date | 最后一篇文章日期 |
n_articles |
int | 事件中的文章数量 |
source_cluster_id |
int | 第1阶段的起源簇 |
route |
str | "A"(时间分割)或 "B"(原子,绕过) |
duration_days |
int | 持续时间(天数,end_date − start_date) |
validation_sample.csv 列参考
| 列名 | 类型 | 描述 |
|---|---|---|
micro_event_id |
str | 微事件标识符 |
n_articles |
int | 文章数量 |
duration_days |
int | 持续时间(天数) |
label |
str | 即时事件标签 |
representative_headline |
str | 代表性标题 |
remaining_headlines |
str | 其余标题(管道分隔) |
annotation |
str | 手动标注:C = 正确,P = 部分正确,N = 非事件 |
notes |
str | 自由文本标注说明 |
关键统计信息
| 统计项 | 值 |
|---|---|
| 文章总数 | 13,831 |
| 有效微事件中的文章数 | 4,418 (31.9%) |
| 微事件总数 | 1,632 |
| 平均每微事件文章数 | 2.71 |
| 中位数每微事件文章数 | 2 |
| 第1阶段簇的中位数事件持续时间 | 190天 |
| 第2阶段微事件的中位数事件持续时间 | 3天 |
| 持续时间缩减因子 | 63× |
| 具有CLIP嵌入的文章数 | 12,713 (91.9%) |
| 唯一图像哈希数 | 12,789 |
数据模态
每篇文章由三种模态表示:
- 文本: 多语言E5-small嵌入(384维)
- 图像: CLIP ViT-B/32嵌入(512维),每个唯一MD5图像哈希对应一个
- 时间: 每个微事件的每日发布密度信号
构建流程
数据集通过一个五阶段流程构建,每个阶段对应一个Jupyter笔记本。
阶段0 — 语料库丰富 (phase0_corpus_enrichment.ipynb)
原始语料库的摄取和丰富:文本规范化、使用Stanza的NER(→ named_entities)、时间表达式提取(→ date_mentions, extracted_dates)以及DBpedia实体链接(→ named_entities_dbpedia)。
阶段1 — 语义微聚类 (phase1_semantic_clustering.ipynb)
在多语言E5-small嵌入上使用BERTopic和HDBSCAN(min_cluster_size=6),通过UMAP投影到5维。通过Ward凝聚聚类拯救噪声文章。产生3,577个标记的语义簇。
质量指标: $C_v = 0.62$,轮廓系数(原始嵌入)$= 0.006$,内部/外部距离比 $= 0.637$。
阶段2 — 混合时间分割 (phase2_temporal_segmentation.ipynb)
双重路由(路由A:≥4篇文章 → 时间分割;路由B:<4 → 原子)。高斯平滑(σ=0.75)+ 峰值检测。三重标准分割验证器:时间间隔≥30天(70.5%的分割)、残差余弦相异度(29.5%)、命名实体Jaccard=0(约0%)。产生1,632个微事件以及 micro_event_id / event_label 列。
阶段3 — CLIP嵌入 (phase3_clip_embeddings.ipynb)
为每个唯一MD5图像哈希计算一次CLIP ViT-B/32嵌入,并广播到共享该哈希的所有文章。12,713/13,831篇文章具有有效嵌入;剩余的1,118篇接收零向量,并在仅图像评估中被排除。
基线检索 (baseline_retrieval.ipynb)
复现论文中报告的BM25、仅文本、仅图像、拼接和晚期融合检索基线。评估协议:500个采样查询,MAP@5和MAP@10。
检索基线结果
| 系统 | P@5 | R@5 | MAP@5 | MAP@10 |
|---|---|---|---|---|
| 随机 | .0002 | .0002 | .0002 | .0002 |
| BM25 | .1544 | .3555 | .2645 | .2796 |
| 仅文本 (E5-small) | .0224 | .0416 | .0299 | .0297 |
| 仅图像 (CLIP) | .0312 | .0678 | .0429 | .0443 |
| 拼接 (E5 + CLIP) | .0372 | .0710 | .0485 | .0514 |
| 晚期融合 | .0376 | .0713 | .0481 | .0508 |
手动验证
随机抽取50个微事件进行手动标注:
| 标注 | 数量 | 百分比 |
|---|---|---|
| 正确 | 13 | 26% |
| 部分正确 | 3 | 6% |
| 非事件 | 34 | 68% |
68%的非事件率反映了语料库的单媒体性质:重复出现的栏目(天气、美食、观点专栏、历史文章)被主题正确分组,但并不构成离散的新闻事件。真正的聚类错误率(来自不同事件的文章被合并)仅为14%。
许可证
本数据集根据知识共享署名4.0国际许可协议 (CC BY 4.0)发布。




