five

vector/test_demo

收藏
Hugging Face2022-08-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vector/test_demo
下载链接
链接失效反馈
官方服务:
资源简介:
WikiLingua是一个大规模的多语言数据集,用于跨语言摘要生成系统的评估。该数据集包含18种语言的文章和摘要对,数据来源于WikiHow,一个由人类作者编写的高质量协作资源。数据集的主要用途是作为跨语言摘要生成系统的基准数据集。数据集的结构包括数据字段如gem_id、source_language、target_language、source等,并且数据被分为训练集、开发集和测试集。数据集的创建者包括来自哥伦比亚大学、斯坦福大学和康奈尔大学的研究人员。数据集的使用受Creative Commons Attribution 3.0 Unported许可证的限制,仅限非商业用途。
提供机构:
vector
原始信息汇总

数据集概述

数据集名称

  • WikiLingua

数据集加载方式

  • 通过 datasets.load_dataset(GEM/wiki_lingua) 加载

数据集来源

  • 原始数据集托管于 GitHub

数据集描述论文

  • 论文标题:WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization
  • 论文链接:ACL Anthology

数据集创建者

  • Faisal Ladhak (Columbia University)
  • Esin Durmus (Stanford University)
  • Claire Cardie (Cornell University)
  • Kathleen McKeown (Columbia University)

数据集联系人

  • Faisal Ladhak
  • Esin Durmus

数据集联系邮箱

  • faisal@cs.columbia.edu
  • esdurmus@stanford.edu

数据集语言

  • 覆盖18种语言,包括英语、西班牙语、葡萄牙语、法语、德语、俄语、意大利语、印度尼西亚语、荷兰语、阿拉伯语、中文、越南语、泰语、日语、韩语、印地语、捷克语、土耳其语

数据集许可证

  • cc-by-3.0: Creative Commons Attribution 3.0 Unported

数据集目的

  • 作为大规模、高质量的跨语言摘要基准数据集

数据集主要任务

  • 摘要生成

数据集结构

  • 数据字段包括:gem_id, source_language, target_language, source
  • 示例实例: json { "gem_id": "wikilingua_crosslingual-train-12345", "gem_parent_id": "wikilingua_crosslingual-train-12345", "source_language": "fr", "target_language": "de", "source": "Document in fr", "target": "Summary in de", }

数据集分割

  • 数据分割为训练/开发/测试集

数据集分割标准

  • 确保同一文档在不同语言中的同一分割中出现,以防止测试集泄露

数据集在GEM中的独特性

  • 覆盖18种语言,增加GEM摘要任务的语言覆盖范围
  • 与其他GEM数据集相比,提供不同的领域和更广泛的语言覆盖

数据集衡量能力

  • 衡量模型生成多语言高质量摘要的能力

数据集修改

  • GEM版本的数据集已修改,包括创建单一多语言数据加载器

数据集来源

  • 数据来源于WikiHow,一个由人类作者编写和审核的在线指南资源

数据集主题

  • 覆盖19个广泛类别,包括健康、艺术和娱乐、个人护理和风格、旅行、教育和通信等

数据集社会影响

  • 存在已记录的社会偏见

数据集使用限制

  • 仅限非商业用途
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作