WikiLingua

Name: WikiLingua
Creator: 哥伦比亚大学
Published: 2020-10-07 08:28:05
License: 暂无描述

arXiv2020-10-07 更新2024-06-21 收录

下载链接：

https://github.com/esdurmus/Wikilingua

下载链接

链接失效反馈

官方服务：

资源简介：

WikiLingua是一个大规模的多语言数据集，用于评估跨语言抽象摘要系统。该数据集从WikiHow中提取了18种语言的文章和摘要对，通过图像对每篇文章的步骤进行对齐，创建了跨语言的黄金标准文章-摘要对齐。数据集包含高质量的协作编写的操作指南，每个文章和摘要都由23人编写和16人审核，确保内容的高质量。WikiLingua旨在解决跨语言抽象摘要资源缺乏的问题，为研究提供了丰富的数据资源，适用于探索新的跨语言和多语言摘要方法。

WikiLingua is a large-scale multilingual dataset designed for evaluating cross-lingual abstractive summarization systems. This dataset extracts article-summary pairs across 18 languages from WikiHow, and aligns the procedural steps of each article with corresponding images to establish cross-lingual gold-standard article-summary alignments. The dataset comprises high-quality collaboratively authored how-to guides, where each article and summary was written by 23 contributors and reviewed by 16 professionals, ensuring the high quality of the included content. WikiLingua aims to address the scarcity of cross-lingual abstractive summarization resources, providing a rich data resource for research and facilitating the exploration of novel cross-lingual and multilingual summarization methods.

提供机构：

哥伦比亚大学

创建时间：

2020-10-07

搜集汇总

数据集介绍

构建方式

在跨语言抽象摘要研究领域，高质量多语言数据集的稀缺长期制约着相关进展。WikiLingua的构建巧妙地利用了WikiHow这一高质量协作式指南平台，通过提取18种语言的步骤化文章与摘要对，构建了大规模平行语料库。其核心创新在于采用图像对齐策略：由于每种语言的指南步骤均配有专属插图，研究者通过匹配跨语言间相同的视觉内容，实现了文章段落与摘要句子的精准对齐。该方法不仅规避了人工标注的高成本，更确保了跨语言对齐的可靠性，最终形成了包含超过14万篇英语文章及平均4万余篇平行文本的多语言数据集。

特点

WikiLingua的显著特征体现在其规模、质量与结构设计上。该数据集涵盖18种语言，语言类型跨越印欧、乌拉尔-阿尔泰和南亚语系，提供了迄今最大的跨语言摘要平行语料。其文本来源于经过多人撰写与审核的WikiHow指南，确保了内容的流畅性与规范性。在结构上，每篇文章由多个步骤构成，每个步骤包含一句摘要与详细说明段落，这种设计天然消除了新闻摘要中常见的引导偏差，迫使模型学习基于内容本身的摘要生成。数据统计显示，文章与摘要的平均长度分别为391词与39词，形成了适中的摘要压缩比例，为模型训练提供了理想的数据分布。

使用方法

该数据集主要用于训练与评估跨语言抽象摘要系统。研究者可将其分割为训练集、验证集与测试集，并确保不同语言间主题内容无重叠，以严格评估模型泛化能力。典型应用包括：基于多语言预训练模型（如mBART）进行微调，实现从源语言文章到目标语言摘要的直接生成；或作为基准测试平台，对比“摘要后翻译”与“翻译后摘要”等传统方法的性能。数据集支持端到端跨语言摘要模型的开发，此类模型无需在推理阶段依赖外部翻译系统，显著提升了效率与成本效益。此外，其多步骤指南结构也为研究序列化摘要生成提供了独特场景。

背景与挑战

背景概述

跨语言抽象摘要作为自然语言处理领域的前沿研究方向，长期以来因高质量多语言资源的匮乏而进展缓慢。2020年，由哥伦比亚大学与康奈尔大学的研究团队联合构建的WikiLingua数据集应运而生，旨在为跨语言摘要任务提供大规模、高质量的基准数据。该数据集从WikiHow平台提取了涵盖18种语言的教程文章与摘要对，通过共享的步骤插图实现跨语言对齐，核心研究问题聚焦于如何克服语言壁垒，生成语义连贯、信息凝练的跨语言摘要。WikiLingua以其前所未有的数据规模与多语言并行特性，显著推动了跨语言摘要模型的发展，为后续研究提供了坚实的实验基础。

当前挑战

在跨语言摘要领域，核心挑战在于模型需同时掌握语言转换与内容提炼的双重能力，而传统方法依赖分步的翻译与摘要流程，易导致错误传播与推理效率低下。构建WikiLingua数据集时，研究团队面临两大难题：其一，跨语言步骤对齐需依赖共享插图，但部分文章存在图像缺失或差异，需设计精细过滤机制确保对齐质量；其二，如何从协作编写的教程中提取结构化的摘要，并消除语言间步骤顺序差异带来的噪声，这要求创新的数据清洗与对齐策略。这些挑战共同凸显了高质量跨语言数据构建的复杂性与必要性。

常用场景

经典使用场景

在跨语言自然语言处理领域，WikiLingua数据集为跨语言抽象摘要任务提供了基准评估平台。该数据集通过从WikiHow平台提取18种语言的教程文章与摘要对，构建了大规模、高质量的平行语料库。其经典应用场景在于训练和评估端到端的跨语言摘要模型，例如直接生成英文摘要的非英文文章输入，无需依赖中间翻译步骤，从而推动跨语言理解与生成技术的前沿探索。

实际应用

在实际应用中，WikiLingua支持构建多语言智能助手与知识传播系统。例如，在教育与技术领域，系统可自动将英文操作指南摘要为西班牙文或中文，帮助非母语用户快速获取关键信息。其覆盖健康、旅行、艺术等多样主题，使得模型能够适应现实场景中的多领域需求，为全球化内容平台提供高效、低成本的自动化摘要服务，增强信息的可及性与传播广度。

衍生相关工作

基于WikiLingua，研究者衍生出多项经典工作，如结合合成数据与神经机器翻译的预训练方法DC+Synth+MT，显著提升跨语言摘要性能。该数据集还激发了多任务学习框架的探索，例如将文档级翻译与摘要联合训练，以增强模型的语言迁移能力。此外，它促进了跨语言多源摘要架构的研究，为构建支持任意语言互转的通用摘要系统奠定基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集