WikiLingua
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/esdurmus/wikilingua
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含76,000篇文章,平均每篇文章约有800个词汇,适用于摘要任务。此外,这些文章的平均摘要长度大约是原文长度的9.5%。规模上,数据集包含76,000篇文章,所涉及的任务是摘要。
This dataset consists of 76,000 articles, each averaging approximately 800 words, and is tailored for summarization tasks. Furthermore, the average length of their corresponding summaries is roughly 9.5% of the original article's length.
搜集汇总
数据集介绍

背景与挑战
背景概述
WikiLingua是一个多语言抽象摘要基准数据集,包含约77万篇文章和摘要对,覆盖18种语言,数据来源于WikiHow。该数据集通过跨语言对齐图像来提取高质量的文章-摘要对齐,支持多语言摘要任务的评估和训练。
以上内容由遇见数据集搜集并总结生成



