AkshitaS/google_xquad_plus

Name: AkshitaS/google_xquad_plus
Creator: AkshitaS
Published: 2024-06-13 22:08:26
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/AkshitaS/google_xquad_plus

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-nc-sa-4.0 task_categories: - question-answering language: - en - hi - ar - de - el - es - ro - ru - th - tr - vi - zh configs: - config_name: ara_Arab data_files: - split: validation path: data/ara_Arab/validation* - config_name: deu_Latn data_files: - split: validation path: data/deu_Latn/validation* - config_name: ell_Grek data_files: - split: validation path: data/ell_Grek/validation* - config_name: eng_Latn data_files: - split: validation path: data/eng_Latn/validation* - config_name: hin_Deva data_files: - split: validation path: data/hin_Deva/validation* - config_name: hin_Latn data_files: - split: validation path: data/hin_Latn/validation* - config_name: ron_Latn data_files: - split: validation path: data/ron_Latn/validation* - config_name: rus_Cyrl data_files: - split: validation path: data/rus_Cyrl/validation* - config_name: spa_Latn data_files: - split: validation path: data/spa_Latn/validation* - config_name: tha_Thai data_files: - split: validation path: data/tha_Thai/validation* - config_name: tur_Latn data_files: - split: validation path: data/tur_Latn/validation* - config_name: vie_Latn data_files: - split: validation path: data/vie_Latn/validation* - config_name: zho_Hans data_files: - split: validation path: data/zho_Hans/validation* --- **Source dataset**: - Link: [google/xquad](https://huggingface.co/datasets/google/xquad) - Revision: `51adfef1c1287aab1d2d91b5bead9bcfb9c68583` **XQuAD**: XQuAD (Cross-lingual Question Answering Dataset) is a benchmark dataset for evaluating cross-lingual question answering performance. The dataset consists of a subset of 240 paragraphs and 1190 question-answer pairs from the development set of SQuAD v1.1 (Rajpurkar et al., 2016) together with their professional translations into ten languages: Spanish, German, Greek, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, and Hindi. Consequently, the dataset is entirely parallel across 11 languages. **XQuAD Plus** XQuAD Plus additionally has hin_Latn data generated using indictrans library.

许可证：CC BY-NC-SA 4.0 任务类别： - 问答任务涉及语言： - en（英语） - hi（印地语） - ar（阿拉伯语） - de（德语） - el（希腊语） - es（西班牙语） - ro（罗马尼亚语） - ru（俄语） - th（泰语） - tr（土耳其语） - vi（越南语） - zh（中文）配置项： - 配置名称：ara_Arab（阿拉伯语阿拉伯文）数据文件： - 拆分集：验证集（validation）路径：data/ara_Arab/validation* - 配置名称：deu_Latn（德语拉丁文）数据文件： - 拆分集：验证集（validation）路径：data/deu_Latn/validation* - 配置名称：ell_Grek（希腊语希腊文）数据文件： - 拆分集：验证集（validation）路径：data/ell_Grek/validation* - 配置名称：eng_Latn（英语拉丁文）数据文件： - 拆分集：验证集（validation）路径：data/eng_Latn/validation* - 配置名称：hin_Deva（印地语天城文）数据文件： - 拆分集：验证集（validation）路径：data/hin_Deva/validation* - 配置名称：hin_Latn（印地语拉丁转写）数据文件： - 拆分集：验证集（validation）路径：data/hin_Latn/validation* - 配置名称：ron_Latn（罗马尼亚语拉丁文）数据文件： - 拆分集：验证集（validation）路径：data/ron_Latn/validation* - 配置名称：rus_Cyrl（俄语西里尔文）数据文件： - 拆分集：验证集（validation）路径：data/rus_Cyrl/validation* - 配置名称：spa_Latn（西班牙语拉丁文）数据文件： - 拆分集：验证集（validation）路径：data/spa_Latn/validation* - 配置名称：tha_Thai（泰语泰文）数据文件： - 拆分集：验证集（validation）路径：data/tha_Thai/validation* - 配置名称：tur_Latn（土耳其语拉丁文）数据文件： - 拆分集：验证集（validation）路径：data/tur_Latn/validation* - 配置名称：vie_Latn（越南语拉丁文）数据文件： - 拆分集：验证集（validation）路径：data/vie_Latn/validation* - 配置名称：zho_Hans（简体中文）数据文件： - 拆分集：验证集（validation）路径：data/zho_Hans/validation* **源数据集**： - 链接：[google/xquad](https://huggingface.co/datasets/google/xquad) - 修订版本：`51adfef1c1287aab1d2d91b5bead9bcfb9c68583` **XQuAD**： XQuAD（跨语言问答数据集，Cross-lingual Question Answering Dataset）是用于评估跨语言问答性能的基准数据集。该数据集从SQuAD v1.1（Rajpurkar等人，2016）的开发集中选取了240段文本与1190组问答对，并将其专业翻译为十种语言：西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文与印地语。因此，该数据集在11种语言间完全对齐。 **XQuAD Plus**： XQuAD Plus额外包含了使用indictrans库生成的印地语拉丁转写（hin_Latn）数据。

提供机构：

AkshitaS

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
任务类别: 问答
语言:
- 英语 (en)
- 印地语 (hi)
- 阿拉伯语 (ar)
- 德语 (de)
- 希腊语 (el)
- 西班牙语 (es)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 泰语 (th)
- 土耳其语 (tr)
- 越南语 (vi)
- 中文 (zh)

数据配置

config_name: ara_Arab
- 数据文件:
  - split: validation
  - path: data/ara_Arab/validation*
config_name: deu_Latn
- 数据文件:
  - split: validation
  - path: data/deu_Latn/validation*
config_name: ell_Grek
- 数据文件:
  - split: validation
  - path: data/ell_Grek/validation*
config_name: eng_Latn
- 数据文件:
  - split: validation
  - path: data/eng_Latn/validation*
config_name: hin_Deva
- 数据文件:
  - split: validation
  - path: data/hin_Deva/validation*
config_name: hin_Latn
- 数据文件:
  - split: validation
  - path: data/hin_Latn/validation*
config_name: ron_Latn
- 数据文件:
  - split: validation
  - path: data/ron_Latn/validation*
config_name: rus_Cyrl
- 数据文件:
  - split: validation
  - path: data/rus_Cyrl/validation*
config_name: spa_Latn
- 数据文件:
  - split: validation
  - path: data/spa_Latn/validation*
config_name: tha_Thai
- 数据文件:
  - split: validation
  - path: data/tha_Thai/validation*
config_name: tur_Latn
- 数据文件:
  - split: validation
  - path: data/tur_Latn/validation*
config_name: vie_Latn
- 数据文件:
  - split: validation
  - path: data/vie_Latn/validation*
config_name: zho_Hans
- 数据文件:
  - split: validation
  - path: data/zho_Hans/validation*

数据集描述

XQuAD:
- 一个用于评估跨语言问答性能的基准数据集。
- 包含240个段落和1190个问答对，来自SQuAD v1.1的开发集。
- 数据集包含10种语言的专业翻译，完全平行于11种语言。
XQuAD Plus:
- 额外包含使用indictrans库生成的hin_Latn数据。

搜集汇总

数据集介绍

构建方式

在跨语言问答研究领域，构建高质量的多语言基准数据集对于评估模型的语言迁移能力至关重要。XQuAD Plus数据集以SQuAD v1.1开发集中的240个段落和1190个问答对为基础，通过专业翻译将其转化为包括英语、西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语在内的11种语言版本，确保了数据的完全平行性。特别地，针对印地语，该数据集还利用indictrans库生成了拉丁字母转写版本，进一步丰富了语言表征的多样性。

特点

该数据集的核心特征在于其严格的跨语言平行结构，每种语言版本均源自同一英语源数据，为跨语言问答模型的性能评估提供了可靠对照。数据集涵盖了从拉丁字母、西里尔字母到阿拉伯字母、天城文等多种文字体系，涉及印欧、汉藏、突厥等多个语系，语言多样性显著。这种设计使得研究者能够系统考察模型在不同语言及文字变体上的泛化能力与鲁棒性，尤其为低资源语言的问答研究提供了宝贵资源。

使用方法

使用该数据集时，研究者可将其直接应用于跨语言问答模型的评估与微调。数据集已按语言和文字变体划分为独立的验证集配置，如`zho_Hans`代表简体中文，`hin_Deva`代表天城文印地语。用户可通过加载特定配置，获取对应语言的段落、问题及参考答案，进行端到端的问答性能测试。该数据集适用于零样本跨语言迁移、多语言联合训练等多种实验场景，是推动多语言自然语言理解技术发展的关键基准工具之一。

背景与挑战

背景概述

在跨语言自然语言处理领域，多语言问答系统的评估长期面临数据稀缺的困境。XQuAD数据集由谷歌研究团队于2020年创建，旨在通过构建涵盖11种语言的平行语料库，系统评估机器阅读理解模型的跨语言迁移能力。该数据集以SQuAD v1.1开发集为基础，精选240个段落与1190组问答对，经由专业译者转化为西班牙语、德语、希腊语等十种语言文本，形成了严格对齐的多语言评估基准。其创新性在于首次提供了大规模高质量平行问答数据，显著推动了跨语言预训练模型与零样本迁移学习的研究进程，成为衡量模型语言泛化能力的重要标尺。

当前挑战

跨语言问答任务的核心挑战在于语言间的结构差异与文化语境迁移。模型需克服形态变化、语序重组与语言特有表达的障碍，例如阿拉伯语的右向书写系统与泰语的复杂字形分离问题。数据构建过程中，专业翻译需在保持问答逻辑一致性的同时，处理成语隐喻的本土化转换与专有名词的音译规范。此外，通过indictrans库生成的拉丁化印地语变体，揭示了转写过程中音素对齐与正字法转换的技术难题。这些多层次挑战共同构成了对模型深层语义理解与跨语言泛化能力的严苛考验。

常用场景

经典使用场景

在跨语言问答研究领域，AkshitaS/google_xquad_plus数据集作为一项关键基准工具，其经典使用场景聚焦于评估多语言机器阅读理解模型的性能。该数据集通过提供11种语言的平行文本与问题-答案对，使研究者能够系统测试模型在不同语言间的泛化能力与知识迁移效果，尤其在零样本或少样本跨语言迁移学习设定下，成为衡量模型跨语言理解深度的标准测试床。

衍生相关工作

围绕该数据集衍生了一系列经典研究工作，例如在XLM、mBERT等跨语言预训练模型的评估与优化中，它被广泛用作核心评测基准。后续研究如Unicoder、XLM-R等工作均在其基础上验证了模型的多语言能力。此外，针对数据集中特定语言对（如印地语拉丁化变体）的扩展，也催生了针对书写系统转换与低资源语言适配的专项研究，进一步丰富了跨语言NLP的技术谱系。

数据集最近研究