XWikis
收藏arXiv2022-02-19 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2202.09583v1
下载链接
链接失效反馈官方服务:
资源简介:
XWikis是由爱丁堡大学信息学院语言、认知与计算研究所创建的一个跨语言摘要数据集,涵盖了捷克语、英语、法语和德语四种欧洲语言。该数据集通过结合维基百科中语言对齐的文章标题的引言段落和文章主体,生成了跨语言的文档-摘要实例。XWikis数据集不仅支持不同程度的监督学习(监督、零样本和少样本),还支持多种语言组合(跨语言和多语言),以及不同语言资源的场景(高资源和低资源)。该数据集旨在推动跨语言摘要的研究,特别是在理解和翻译不同语言内容方面的挑战。
XWikis is a cross-lingual summarization dataset developed by the Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh, covering four European languages: Czech, English, French, and German. It generates cross-lingual document-summary pairs by combining the introductory paragraphs and main bodies of language-aligned Wikipedia articles. The XWikis dataset supports multiple supervised learning paradigms including supervised, zero-shot, and few-shot settings, alongside diverse language configurations such as cross-lingual and multilingual scenarios, as well as settings with varying language resource scales (high-resource and low-resource). This dataset is designed to promote research on cross-lingual summarization, especially addressing the challenges in understanding and translating content across different languages.
提供机构:
爱丁堡大学信息学院语言、认知与计算研究所
创建时间:
2022-02-19
搜集汇总
数据集介绍

背景与挑战
背景概述
XWikis是一个由爱丁堡大学创建的跨语言摘要数据集,涵盖捷克语、英语、法语和德语,通过维基百科语言对齐内容生成文档-摘要实例。它支持监督、零样本和少样本学习,适用于跨语言和多语言组合以及高、低资源语言场景,旨在推动跨语言摘要研究以应对理解和翻译挑战。
以上内容由遇见数据集搜集并总结生成



