five

WikiLingua

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/esdurmus/wikilingua
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含76,000篇文章,平均每篇文章约有800个词汇,适用于摘要任务。此外,这些文章的平均摘要长度大约是原文长度的9.5%。规模上,数据集包含76,000篇文章,所涉及的任务是摘要。

This dataset consists of 76,000 articles, each averaging approximately 800 words, and is tailored for summarization tasks. Furthermore, the average length of their corresponding summaries is roughly 9.5% of the original article's length.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WikiLingua是一个多语言抽象摘要基准数据集,包含约77万篇文章和摘要对,覆盖18种语言,数据来源于WikiHow。该数据集通过跨语言对齐图像来提取高质量的文章-摘要对齐,支持多语言摘要任务的评估和训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作