five

20min-XD

收藏
Hugging Face2025-04-23 更新2025-04-24 收录
下载链接:
https://huggingface.co/datasets/ZurichNLP/20min-XD
下载链接
链接失效反馈
官方服务:
资源简介:
20min-XD是一个包含15,000对语义对齐的瑞士德语和法语新闻文章的可比语料库,收集自2015至2024年间20 Minuten的在线版。该语料库适用于非商业研究。
提供机构:
University of Zurich, Department of Computational Linguistics
创建时间:
2025-04-23
搜集汇总
数据集介绍
main_image_url
构建方式
20min-XD数据集构建于瑞士新闻媒体20 Minuten的德语和法语在线版本,时间跨度为2015年至2024年。该数据集精心收集了15,000对语义对齐的德法双语新闻文章,涵盖从近似翻译到同一事件相关报道的广泛跨语言相似性范围。数据以文档和句子两级呈现,文档级包含完整文章对,句子级则提取了117,126对可对齐句子,并通过余弦相似度评分实现语义关联度量化。
特点
作为瑞士多语种新闻可比语料库,20min-XD的显著特点体现在其细粒度的跨语言标注体系。文档级数据不仅提供完整的文章元信息(如发布时间、媒体代码等),还创新性地采用字符级统计特征;句子级数据则通过精确的ID映射保留与原文的关联性,字符计数差异指标为机器翻译研究提供了独特维度。数据集特别设计了非对称相似度分布,为跨语言信息检索任务创造了更接近真实场景的研究条件。
使用方法
研究者可通过HuggingFace平台获取TSV格式的文档级和句子级数据文件。使用文档级数据时,建议结合cosine相似度分数筛选特定关联强度的文章对;处理句子级数据则推荐设置相似度阈值(如79)优化语义对齐质量。该数据集特别适用于跨语言文档对齐、低资源机器翻译等NLP任务,但需注意其非商业使用限制,具体条款参考随附的版权声明。
背景与挑战
背景概述
20min-XD数据集是瑞士新闻领域的一项重要资源,由20 Minuten和20 minutes两个在线新闻平台于2015年至2024年间发布的德语和法语新闻文章构成。该数据集由15,000对语义对齐的跨语言新闻文章组成,覆盖了从近似翻译到同一事件相关报道的广泛跨语言相似性范围。作为非平行语料库的代表,20min-XD为跨语言信息检索、机器翻译和自然语言处理研究提供了独特的数据支持,尤其对于研究瑞士多语言环境下的新闻传播模式具有重要价值。
当前挑战
20min-XD数据集面临的核心挑战在于跨语言语义对齐的复杂性。由于新闻文章并非严格平行文本,如何准确评估和建立不同语言版本间的语义对应关系成为关键难题。在构建过程中,研究人员需处理新闻写作风格差异、文化背景差异以及时间敏感性带来的内容变化。此外,句子级对齐需克服句法结构差异和表达习惯多样性,而文档级对齐则需解决文章长度不一致和内容覆盖度不匹配等问题。这些挑战使得该数据集在跨语言自然语言处理任务中既具有研究价值又充满技术难度。
常用场景
经典使用场景
在跨语言信息检索和机器翻译领域,20min-XD数据集因其德法双语新闻文章的对齐特性,成为研究跨语言语义相似性的重要资源。该数据集不仅支持文档级别的对齐研究,还提供了句子级别的精细对齐数据,为跨语言模型训练和评估提供了丰富的语料。
衍生相关工作
基于20min-XD数据集,研究者们开发了多种跨语言模型和工具。例如,一些工作利用该数据集训练了德法双语BERT模型,显著提升了跨语言任务的性能。此外,该数据集还被用于评估跨语言信息检索系统的效果,推动了相关领域的技术进步。
数据集最近研究
最新研究方向
在跨语言信息处理领域,20min-XD数据集因其独特的可比语料特性成为研究热点。该数据集提供的德法双语新闻文章对,为跨语言文档对齐、低资源语言机器翻译以及多语言预训练模型优化提供了重要实验基础。近期研究聚焦于利用其丰富的语义相似度评分,探索非平行语料在神经机器翻译中的增强作用,特别是在处理新闻领域的长文本对齐问题时展现出独特优势。与此同时,该数据集被广泛应用于跨语言事件检测、新闻摘要生成等前沿课题,为欧洲多语言信息处理社区提供了稀缺的瑞士德语-法语对照资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作