five

juletxara/xquad_xtreme

收藏
Hugging Face2022-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juletxara/xquad_xtreme
下载链接
链接失效反馈
官方服务:
资源简介:
XQuAD-XTREME是一个用于评估跨语言问答性能的基准数据集。该数据集包含来自SQuAD v1.1开发集的240个段落和1190个问答对,并提供了这些内容的专业翻译,涵盖了12种语言(包括英语、西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语和罗马尼亚语)。此外,数据集还包括了从XTREME中提取的“translate-train”、“translate-dev”和“translate-test”分割,用于在“translate-train”或“translate-test”设置下运行XQuAD。
提供机构:
juletxara
原始信息汇总

数据集概述

名称: XQuAD-XTREME

类型: 跨语言问答数据集

语言: 英语(en)、西班牙语(es)、德语(de)、希腊语(el)、印地语(hi)、泰语(th)、俄语(ru)、土耳其语(tr)、阿拉伯语(ar)、越南语(vi)、中文(zh)、罗马尼亚语(ro)

许可: CC-BY-SA-4.0

来源: 扩展自SQuAD数据集

任务: 抽取式问答(extractive-qa)

数据集大小: 未知

数据集结构

数据实例

每个语言的数据实例包括以下字段:

  • id: 字符串类型
  • context: 字符串类型
  • question: 字符串类型
  • answers: 字典类型,包含:
    • text: 字符串类型
    • answer_start: 整数类型

数据分割

每个语言的数据集分为验证集,包含1190个实例。

数据集创建

注释者

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成

引用信息

@article{Artetxe:etal:2019, author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama}, title = {On the cross-lingual transferability of monolingual representations}, journal = {CoRR}, volume = {abs/1910.11856}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.11856} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作