vector/test_demo
收藏Hugging Face2022-08-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vector/test_demo
下载链接
链接失效反馈官方服务:
资源简介:
WikiLingua是一个大规模的多语言数据集,用于跨语言摘要生成系统的评估。该数据集包含18种语言的文章和摘要对,数据来源于WikiHow,一个由人类作者编写的高质量协作资源。数据集的主要用途是作为跨语言摘要生成系统的基准数据集。数据集的结构包括数据字段如gem_id、source_language、target_language、source等,并且数据被分为训练集、开发集和测试集。数据集的创建者包括来自哥伦比亚大学、斯坦福大学和康奈尔大学的研究人员。数据集的使用受Creative Commons Attribution 3.0 Unported许可证的限制,仅限非商业用途。
提供机构:
vector
原始信息汇总
数据集概述
数据集名称
- WikiLingua
数据集加载方式
- 通过
datasets.load_dataset(GEM/wiki_lingua)加载
数据集来源
- 原始数据集托管于 GitHub
数据集描述论文
- 论文标题:WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization
- 论文链接:ACL Anthology
数据集创建者
- Faisal Ladhak (Columbia University)
- Esin Durmus (Stanford University)
- Claire Cardie (Cornell University)
- Kathleen McKeown (Columbia University)
数据集联系人
- Faisal Ladhak
- Esin Durmus
数据集联系邮箱
- faisal@cs.columbia.edu
- esdurmus@stanford.edu
数据集语言
- 覆盖18种语言,包括英语、西班牙语、葡萄牙语、法语、德语、俄语、意大利语、印度尼西亚语、荷兰语、阿拉伯语、中文、越南语、泰语、日语、韩语、印地语、捷克语、土耳其语
数据集许可证
- cc-by-3.0: Creative Commons Attribution 3.0 Unported
数据集目的
- 作为大规模、高质量的跨语言摘要基准数据集
数据集主要任务
- 摘要生成
数据集结构
- 数据字段包括:gem_id, source_language, target_language, source
- 示例实例: json { "gem_id": "wikilingua_crosslingual-train-12345", "gem_parent_id": "wikilingua_crosslingual-train-12345", "source_language": "fr", "target_language": "de", "source": "Document in fr", "target": "Summary in de", }
数据集分割
- 数据分割为训练/开发/测试集
数据集分割标准
- 确保同一文档在不同语言中的同一分割中出现,以防止测试集泄露
数据集在GEM中的独特性
- 覆盖18种语言,增加GEM摘要任务的语言覆盖范围
- 与其他GEM数据集相比,提供不同的领域和更广泛的语言覆盖
数据集衡量能力
- 衡量模型生成多语言高质量摘要的能力
数据集修改
- GEM版本的数据集已修改,包括创建单一多语言数据加载器
数据集来源
- 数据来源于WikiHow,一个由人类作者编写和审核的在线指南资源
数据集主题
- 覆盖19个广泛类别,包括健康、艺术和娱乐、个人护理和风格、旅行、教育和通信等
数据集社会影响
- 存在已记录的社会偏见
数据集使用限制
- 仅限非商业用途



