esdurmus/wiki_lingua

Name: esdurmus/wiki_lingua
Creator: esdurmus
Published: 2024-01-05 08:06:54
License: 暂无描述

Hugging Face2024-01-05 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/esdurmus/wiki_lingua

下载链接

链接失效反馈

官方服务：

资源简介：

WikiLingua是一个大规模、多语言的数据集，用于评估跨语言抽象摘要系统。该数据集从WikiHow中提取了18种语言的文章和摘要对，WikiHow是一个高质量、由人类作者编写的多样化主题的协作资源。通过对齐描述每个步骤的图像，创建了跨语言的文章-摘要对齐。

WikiLingua is a large-scale, multilingual dataset designed for evaluating cross-lingual abstractive summarization systems. The dataset collects article-summary pairs across 18 languages from WikiHow, a high-quality collaborative resource featuring diverse topics authored by human authors. Cross-lingual article-summary alignments are constructed by aligning the images that describe each step of the articles.

提供机构：

esdurmus

原始信息汇总

数据集概述

基本信息

数据集名称: WikiLingua
语言: 阿拉伯语, 捷克语, 德语, 英语, 西班牙语, 法语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 荷兰语, 葡萄牙语, 俄语, 泰语, 土耳其语, 越南语, 中文
许可证: CC-BY-3.0
多语言性: 多语言
数据集大小分类: 1K<n<10K, 10K<n<100K
源数据: 原始数据
任务类别: 摘要生成

数据集配置

配置名称: 阿拉伯语, 中文, 捷克语, 荷兰语, 英语, 法语, 德语, 印地语, 印度尼西亚语, 意大利语, 日语, 韩语, 葡萄牙语, 俄语, 西班牙语, 泰语, 土耳其语, 越南语

数据集详情

配置名称: 阿拉伯语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 119116075
    - num_examples: 9995
- 下载大小: 55808460
- 数据集大小: 119116075
配置名称: 中文
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 41170645
    - num_examples: 6541
- 下载大小: 25187026
- 数据集大小: 41170645
配置名称: 捷克语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 20816346
    - num_examples: 2520
- 下载大小: 12480761
- 数据集大小: 20816346
配置名称: 荷兰语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 87257952
    - num_examples: 10862
- 下载大小: 47651076
- 数据集大小: 87257952
配置名称: 英语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
- 分割:
  - train:
    - num_bytes: 333699946
    - num_examples: 57945
- 下载大小: 187189233
- 数据集大小: 333699946
配置名称: 法语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 197550244
    - num_examples: 21690
- 下载大小: 105158840
- 数据集大小: 197550244
配置名称: 德语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 168674208
    - num_examples: 20103
- 下载大小: 93078076
- 数据集大小: 168674208
配置名称: 印地语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 63785007
    - num_examples: 3402
- 下载大小: 22774620
- 数据集大小: 63785007
配置名称: 印度尼西亚语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 136408773
    - num_examples: 16308
- 下载大小: 67658970
- 数据集大小: 136408773
配置名称: 意大利语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 138119439
    - num_examples: 17673
- 下载大小: 78108134
- 数据集大小: 138119439
配置名称: 日语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 40144987
    - num_examples: 4372
- 下载大小: 19794488
- 数据集大小: 40144987
配置名称: 韩语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 38647570
    - num_examples: 4111
- 下载大小: 20029486
- 数据集大小: 38647570
配置名称: 葡萄牙语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 204270713
    - num_examples: 28143
- 下载大小: 114735912
- 数据集大小: 204270713
配置名称: 俄语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 241923944
    - num_examples: 18143
- 下载大小: 111025228
- 数据集大小: 241923944
配置名称: 西班牙语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 314618442
    - num_examples: 38795
- 下载大小: 170995186
- 数据集大小: 314618442
配置名称: 泰语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 86982807
    - num_examples: 5093
- 下载大小: 31944979
- 数据集大小: 86982807
配置名称: 土耳其语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 11371777
    - num_examples: 1512
- 下载大小: 5964904
- 数据集大小: 11371777
配置名称: 越南语
- 特征:
  - url: string
  - article:
    - section_name: string
    - document: string
    - summary: string
    - english_url: string
    - english_section_name: string
- 分割:
  - train:
    - num_bytes: 69868744
    - num_examples: 6616
- 下载大小: 33194150
- 数据集大小: 69868744

搜集汇总

数据集介绍

构建方式

在跨语言摘要生成研究领域，WikiLingua数据集的构建体现了对多语言平行语料库的精心设计。该数据集从WikiHow这一高质量协作平台中提取了18种语言的文章与摘要对，涵盖了丰富多样的主题内容。构建过程中，通过人工标注的方式对齐了不同语言版本的文章，并利用文章中的图像作为跨语言对齐的锚点，确保了不同语言间内容的一致性。数据集的创建依赖于众包策略，由多语言贡献者参与，确保了语言覆盖的广泛性与内容的准确性。

使用方法

在自然语言处理任务中，WikiLingua数据集主要用于跨语言抽象摘要的模型训练与评估。研究人员可通过HuggingFace平台直接加载特定语言配置，例如中文或英语，获取结构化的文章与摘要对。数据集以标准化的JSON格式存储，便于进行预处理和特征提取。用户可基于该数据集开发多语言摘要模型，利用其平行语料库进行跨语言迁移学习，或通过对比不同语言的摘要生成效果，探索语言间的语义差异与共性。

背景与挑战

背景概述

在自然语言处理领域，跨语言摘要生成作为一项前沿任务，旨在突破语言壁垒，实现信息的高效传递与知识共享。WikiLingua数据集应运而生，由研究团队于2020年通过挖掘WikiHow平台的多语言指南构建而成。该数据集涵盖18种语言，核心研究问题聚焦于跨语言抽象摘要的自动生成与评估，通过众包方式对齐文章与摘要，为多语言模型训练提供了大规模、高质量的平行语料。其创建显著推动了跨语言自然语言处理技术的发展，尤其在低资源语言摘要任务中展现出重要影响力，促进了全球信息获取的平等性与可及性。

当前挑战

跨语言摘要生成任务面临多重挑战：其一，语言多样性导致语义对齐困难，低资源语言缺乏充足训练数据，模型易受语言结构差异与文化语境影响，生成摘要的流畅性与准确性难以保障；其二，数据构建过程中，依赖众包对齐图像以链接多语言文本，但图像与文本的对应关系可能存在噪声，且部分语言对样本规模失衡，影响数据集的均衡性与代表性。此外，如何确保摘要在不同语言间保持信息一致性与风格自然性，仍是亟待攻克的核心难题。

常用场景

经典使用场景

在跨语言文本摘要研究领域，WikiLingua数据集以其多语言平行语料库的特性，成为评估抽象摘要模型性能的基准资源。该数据集通过从WikiHow平台提取涵盖18种语言的文章与摘要对，构建了大规模、高质量的跨语言对齐语料。研究者通常利用其平行结构，训练和测试模型在不同语言间生成连贯、简洁摘要的能力，尤其在零样本或少样本跨语言迁移学习场景中展现出重要价值。

解决学术问题

WikiLingua有效应对了多语言自然语言处理中摘要生成任务的数据稀缺挑战。该数据集通过人工撰写的指南性文本，提供了语义对齐的跨语言样本，使得研究者能够深入探索语言无关的摘要表示学习、跨语言知识迁移以及低资源语言摘要生成等核心问题。其存在显著推动了抽象摘要模型在多样性语言环境中的泛化能力研究，并为构建公平、包容的多语言人工智能系统奠定了数据基础。

实际应用

在实际应用层面，WikiLingua支撑了多语言内容摘要系统的开发，例如跨语言新闻聚合、教育知识简化以及多语言助手的信息浓缩功能。企业可利用该数据集训练模型，自动为不同语言用户生成技术文档、操作指南或百科内容的概要，提升信息获取效率。此外，其在全球化客户服务、多语言搜索引擎优化以及无障碍信息访问等领域也具有潜在部署价值。

数据集最近研究