20min-XD

Name: 20min-XD
Creator: 苏黎世大学计算语言学系
Published: 2025-04-30 22:16:08
License: 暂无描述

arXiv2025-04-30 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/ZurichNLP/20min-XD

下载链接

链接失效反馈

官方服务：

资源简介：

20min-XD数据集是一个包含约15,000篇瑞士新闻文章的德语-法语文档级可比语料库，来源于瑞士在线新闻媒体20 Minuten/20 minutes。该数据集覆盖了从2015年到2024年的新闻文章，基于语义相似性自动对齐。我们详细介绍了数据收集过程和对齐方法。此外，我们还提供了对语料库的定性和定量分析。最终的数据集展示了广泛的跨语言相似性，从近似翻译到松散相关的文章，使其对各种NLP应用和广泛的基于语言动机的研究具有价值。我们公开发布了文档和句子对齐版本的数据集以及用于描述实验的代码。

The 20min-XD Dataset is a German-French document-level comparable corpus containing approximately 15,000 Swiss news articles, derived from the Swiss online news outlet 20 Minuten/20 minutes. This corpus covers news articles spanning from 2015 to 2024, which are automatically aligned based on semantic similarity. We elaborate on the data collection process and alignment methodology. In addition, we provide both qualitative and quantitative analyses of the corpus. The final dataset exhibits a wide spectrum of cross-lingual similarities, ranging from near-translations to loosely related articles, rendering it valuable for a variety of NLP applications and a broad range of language-motivated research. We have publicly released both the document-aligned and sentence-aligned versions of the dataset, alongside the code used for the reported experiments.

提供机构：

苏黎世大学计算语言学系

创建时间：

2025-04-30

原始信息汇总

数据集概述：20min-XD

数据集简介

名称：20min-XD (20 Minuten cross-lingual document-level)
类型：瑞士新闻文章可比语料库
语言：德语 (de)、法语 (fr)
标签：news, comparable, comparable corpus, parallel, bitext
许可证：20minuten-copyright-notice (非商业研究用途)

数据集内容

来源：20 Minuten (20min.ch) 和 20 minutes (20min.ch/fr) 的在线版本
时间范围：2015年至2024年
数据量：
- 文章级别：15,000对德语和法语文章
- 句子级别：117,126对句子

数据版本

文章级别 (articles)
- 文件：data/articles.tsv
- 字段：
  - id_de/fr：唯一文章ID
  - score：余弦相似度得分
  - content_id_de/fr：内容ID
  - pubtime_de/fr：发布时间
  - article_link_de/fr：在线新闻文章链接
  - medium_code_de/fr：新闻媒体缩写
  - medium_name_de/fr：新闻媒体全称
  - language_de/fr：语言代码
  - char_count_de/fr：内容字符数
  - head_de/fr：文章标题文本
  - subhead_de/fr：文章副标题文本
  - content_de/fr：文章内容文本
句子级别 (sentences)
- 文件：data/sentences.tsv
- 字段：
  - id_de/fr：唯一句子ID
  - score：余弦相似度得分
  - sentence_id_de/fr：文档内部句子ID
  - aligned_article_id_de/fr：文档ID
  - sentence_de/fr：句子内容
  - char_count_de/fr：句子字符数
  - char_count_diff：德语和法语句子字符数的绝对差异

注意事项

该数据集仅适用于非商业研究用途。
句子级别数据集包含所有可对齐的句子，建议设置相似度阈值（例如79）以筛选语义相似的句子。

搜集汇总

数据集介绍

构建方式

20min-XD数据集的构建过程体现了跨语言新闻语料库的精细设计与技术融合。研究团队首先从瑞士在线新闻平台20 Minuten/20 minutes系统爬取了2015至2024年间近60万篇德法双语新闻，通过多阶段筛选机制确保数据质量。核心创新在于采用语义相似度驱动的自动化对齐方法：基于paraphrase-multilingual-mpnet等先进嵌入模型，对文章标题和导语进行向量编码，通过余弦相似度计算与多种对齐策略（包括交集法、并集法等）实现文档级匹配。特别设计了人工验证集优化相似度阈值至46分，最终形成包含1.5万对齐文章对的精选语料库，并额外提供11.7万句对齐的细粒度版本。

特点

该数据集最显著的特征在于其跨语言可比性的梯度分布。语料覆盖从近乎直译到松散相关的连续语义光谱，包含34%的强相关文章（相似度>80）和66%的弱相关文章，真实反映了新闻跨语言传播中的信息重构现象。定量分析显示标题-导语对齐策略与全文对齐比率呈弱正相关（r=0.145），验证了自动对齐的可靠性。时空维度上，数据集严格遵循同日出版原则，确保事件相关性，同时涵盖瑞士德法双语区近十年的社会变迁，包含平均24句/篇的丰富语境信息，为跨文化研究提供了独特窗口。

使用方法

该数据集支持多层次的研究应用。文档级版本适用于跨语言检索、新闻事件追踪等宏观分析，用户可通过Hugging Face平台获取预对齐的JSON格式数据，其中包含相似度评分、出版日期等元数据。句对齐版本支持细粒度研究，建议结合spaCy分句工具处理原始文本。研究显示相似度阈值46以上的句对质量最佳，用户可根据需求调整该参数平衡召回率与精确度。对于机器翻译等任务，建议按相似度分层抽样以覆盖不同难度样本。数据集配套发布对齐算法代码，支持研究者复现或改进现有方法。

背景与挑战

背景概述

20min-XD是由苏黎世大学计算语言学系与瑞士新闻机构20 Minuten合作构建的法语-德语跨语言可比新闻语料库，发布于2025年。该数据集包含2015至2024年间约15,000篇语义对齐的新闻文章对，通过多语言嵌入模型实现文档级和句子级对齐。作为瑞士多语言生态下的代表性资源，其核心价值在于覆盖从近似翻译到松散相关文本的语义连续体，为机器翻译、跨语言信息检索等NLP任务及比较新闻学研究提供了独特的数据支持。

当前挑战

构建20min-XD面临双重挑战：领域层面需解决跨语言文档对齐中语义相似度判定的粒度问题，传统句级对齐方法难以捕捉新闻文本的叙事结构差异；技术层面则涉及多语言长文本嵌入模型的优化，需平衡计算效率与语义表征精度。自动对齐过程中，标题与导语片段的选择虽提升效率，却可能忽略全文语境一致性，导致约27%的句子对仅呈现弱相关性。此外，数据稀疏性使得验证集仅含14个黄金对齐对，阈值设定的统计显著性存疑。

常用场景

经典使用场景

20min-XD数据集作为法语-德语新闻文章的可比语料库，在跨语言自然语言处理（NLP）领域具有广泛的应用。其最经典的使用场景包括跨语言文档对齐、机器翻译模型的训练与评估，以及跨语言信息检索。通过自动对齐的15,000篇文章对，研究者能够探索不同语言间新闻内容的语义相似性，从而优化跨语言模型的性能。

衍生相关工作

围绕20min-XD衍生的经典工作包括跨语言文本简化（如Rios et al., 2021）和新闻摘要生成（如Kew et al., 2023）。该数据集还启发了对ModernBERT等长上下文嵌入模型的跨语言扩展研究，以及基于语义差异检测的编辑工作流分析（Vamvas & Sennrich, 2023），推动了多语言文档级NLP的技术前沿。

数据集最近研究