vector/test_demo

Name: vector/test_demo
Creator: vector
Published: 2022-08-15 09:09:12
License: 暂无描述

Hugging Face2022-08-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vector/test_demo

下载链接

链接失效反馈

官方服务：

资源简介：

WikiLingua是一个大规模的多语言数据集，用于跨语言摘要生成系统的评估。该数据集包含18种语言的文章和摘要对，数据来源于WikiHow，一个由人类作者编写的高质量协作资源。数据集的主要用途是作为跨语言摘要生成系统的基准数据集。数据集的结构包括数据字段如gem_id、source_language、target_language、source等，并且数据被分为训练集、开发集和测试集。数据集的创建者包括来自哥伦比亚大学、斯坦福大学和康奈尔大学的研究人员。数据集的使用受Creative Commons Attribution 3.0 Unported许可证的限制，仅限非商业用途。

提供机构：

vector

原始信息汇总

数据集概述

数据集名称

WikiLingua

数据集加载方式

通过 datasets.load_dataset(GEM/wiki_lingua) 加载

数据集来源

原始数据集托管于 GitHub

数据集描述论文

论文标题：WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization
论文链接：ACL Anthology

数据集创建者

Faisal Ladhak (Columbia University)
Esin Durmus (Stanford University)
Claire Cardie (Cornell University)
Kathleen McKeown (Columbia University)

数据集联系人

Faisal Ladhak
Esin Durmus

数据集联系邮箱

faisal@cs.columbia.edu
esdurmus@stanford.edu

数据集语言

覆盖18种语言，包括英语、西班牙语、葡萄牙语、法语、德语、俄语、意大利语、印度尼西亚语、荷兰语、阿拉伯语、中文、越南语、泰语、日语、韩语、印地语、捷克语、土耳其语

数据集许可证

cc-by-3.0: Creative Commons Attribution 3.0 Unported

数据集目的

作为大规模、高质量的跨语言摘要基准数据集

数据集主要任务

摘要生成

数据集结构

数据字段包括：gem_id, source_language, target_language, source
示例实例： json { "gem_id": "wikilingua_crosslingual-train-12345", "gem_parent_id": "wikilingua_crosslingual-train-12345", "source_language": "fr", "target_language": "de", "source": "Document in fr", "target": "Summary in de", }

数据集分割

数据分割为训练/开发/测试集

数据集分割标准

确保同一文档在不同语言中的同一分割中出现，以防止测试集泄露

数据集在GEM中的独特性

覆盖18种语言，增加GEM摘要任务的语言覆盖范围
与其他GEM数据集相比，提供不同的领域和更广泛的语言覆盖

数据集衡量能力

衡量模型生成多语言高质量摘要的能力

数据集修改

GEM版本的数据集已修改，包括创建单一多语言数据加载器

数据集来源

数据来源于WikiHow，一个由人类作者编写和审核的在线指南资源

数据集主题

覆盖19个广泛类别，包括健康、艺术和娱乐、个人护理和风格、旅行、教育和通信等

数据集社会影响

存在已记录的社会偏见

数据集使用限制

仅限非商业用途

5,000+

优质数据集

54 个

任务类型

进入经典数据集