indic-squad

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/l3cube-pune/indic-squad

下载链接

链接失效反馈

官方服务：

资源简介：

IndicSQuAD数据集是一个全面的多语种问答数据集，涵盖了九种主要的印度语言：印地语、孟加拉语、泰米尔语、泰卢固语、马拉地语、古吉拉特语、旁遮普语、卡纳达语、奥里亚语和马来语。该数据集旨在为这些语言提供问答模型开发的基础，并提供了每种语言的训练、验证和测试集。数据集的结构与著名的英语SQuAD数据集相似。

创建时间：

2025-05-24

原始信息汇总

IndicSQuAD 数据集概述

数据集基本信息

许可证: cc-by-4.0
任务类别: 问答系统
语言: 包括孟加拉语(bn)、古吉拉特语(gu)、印地语(hi)、卡纳达语(kn)、马拉雅拉姆语(ml)、马拉地语(mr)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)、泰卢固语(te)
数据集名称: IndicSQuAD
规模分类: 10K<n<100K

数据集描述

IndicSQuAD 是一个全面的多语言抽取式问答数据集，涵盖九种主要的印度语言：印地语、孟加拉语、泰米尔语、泰卢固语、马拉地语、古吉拉特语、乌尔都语、卡纳达语、奥里亚语和马拉雅拉姆语。该数据集系统地源自流行的英语SQuAD（斯坦福问答数据集）。

语言覆盖

数据集涵盖以下10种印度语言：

印地语 (hi)
孟加拉语 (bn)
泰米尔语 (ta)
泰卢固语 (te)
马拉地语 (mr)
古吉拉特语 (gu)
旁遮普语 (pa)
卡纳达语 (kn)
奥里亚语 (or)
马拉雅拉姆语 (ml)

数据集结构

数据集结构与原始SQuAD数据集相似，包含上下文、问题和相应的答案范围。每个示例包括：

id: 问题-答案对的唯一标识符。
title: 提取上下文的维基百科文章标题。
context: 包含答案的文本段落。
question: 关于上下文的问题。
answers: 包含以下内容的字典：
- text: 来自上下文的可能答案范围列表。
- answer_start: 上下文中每个答案范围的起始字符索引列表。

引用

如果使用IndicSQuAD数据集，请引用以下论文：

@article{endait2025indicsquad, title={IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages}, author={Endait, Sharvi and Ghatage, Ruturaj and Kulkarni, Aditya and Patil, Rajlaxmi and Joshi, Raviraj}, journal={arXiv preprint arXiv:2505.03688}, year={2025} }

@article{ghatage2024mahasquad, title={MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering}, author={Ghatage, Ruturaj and Kulkarni, Aditya and Patil, Rajlaxmi and Endait, Sharvi and Joshi, Raviraj}, journal={arXiv preprint arXiv:2404.13364}, year={2024} }

相关BERT模型

语言	模型链接
马拉地语	https://huggingface.co/l3cube-pune/marathi-question-answering-squad-bert
印地语	https://huggingface.co/l3cube-pune/hindi-question-answering-squad-bert
孟加拉语	https://huggingface.co/l3cube-pune/bengali-question-answering-squad-bert
泰卢固语	https://huggingface.co/l3cube-pune/telugu-question-answering-squad-bert
泰米尔语	https://huggingface.co/l3cube-pune/tamil-question-answering-squad-bert
古吉拉特语	https://huggingface.co/l3cube-pune/gujarati-question-answering-squad-bert
旁遮普语	https://huggingface.co/l3cube-pune/punjabi-question-answering-squad-bert
卡纳达语	https://huggingface.co/l3cube-pune/kannada-question-answering-squad-bert
奥里亚语	https://huggingface.co/l3cube-pune/oriya-question-answering-squad-bert
马拉雅拉姆语	https://huggingface.co/l3cube-pune/malayalam-question-answering-squad-bert

搜集汇总

数据集介绍

构建方式

IndicSQuAD数据集通过系统化的翻译和适配技术，从英文SQuAD数据集衍生而来，覆盖了包括印地语、孟加拉语、泰米尔语等在内的十种主要印度语言。构建过程中特别注重保持语言的高保真度和答案跨度的精确对齐，采用了类似MahaSQuAD的方法论，确保了数据在多语言环境下的准确性和一致性。命名实体和数值被转写为相应语言的文字，以维持上下文和答案的连贯性。

特点

IndicSQuAD作为多语言抽取式问答数据集，其显著特点在于涵盖了资源相对匮乏的印度语言，为这些语言的问答系统研究提供了重要资源。数据集结构严谨，包含上下文、问题及对应答案跨度，且每个条目均有唯一标识符和来源文章标题，便于追踪和使用。其多语言特性为跨语言模型训练和评估提供了丰富素材。

使用方法

该数据集适用于训练和评估多语言问答模型，尤其针对印度语言。使用时可按照原始SQuAD数据集的处理流程，加载对应的训练、验证和测试集。HuggingFace平台提供了针对各语言的预训练BERT模型，可直接用于特定语言的问答任务。研究引用时需遵循指定的文献格式，以确保学术规范的遵守。

背景与挑战

背景概述

IndicSQuAD数据集是面向印度多种语言的大规模抽取式问答数据集，涵盖了印地语、孟加拉语、泰米尔语等十种主要印度语言。该数据集由L3Cube Pune团队于2025年构建，旨在解决印度语言在自然语言处理领域资源匮乏的问题。数据集基于斯坦福问答数据集（SQuAD）进行扩展，通过创新的翻译和适配技术，确保了跨语言的高质量答案跨度对齐。IndicSQuAD的发布为印度语言的问答系统研究提供了重要基准，推动了多语言模型的发展，填补了该领域的研究空白。

当前挑战

IndicSQuAD数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，印度语言的复杂语法结构和丰富的形态变化对问答系统的性能提出了更高要求，尤其是低资源语言的模型泛化能力亟待提升。构建过程中，多语言数据的准确翻译和答案跨度的对齐是核心难点，需要克服语言间的文化差异和表达习惯的不同。此外，确保数据标注的一致性和质量，尤其是在多语言环境下，需要精细的验证机制和语言学专业知识支持。

常用场景

经典使用场景

在自然语言处理领域，IndicSQuAD数据集为多语言问答系统的开发与评估提供了重要基准。该数据集通过覆盖十种印度主要语言，成为研究跨语言迁移学习和低资源语言建模的经典实验平台。其结构化的问题-上下文-答案三元组设计，使研究者能够系统地测试模型在复杂语言环境下的理解能力，特别是在处理印度语言特有的形态学变化和语法结构时表现出的适应性。

衍生相关工作

该数据集催生了系列重要研究，包括基于BERT架构的IndicBERT等预训练模型家族，以及针对印度语言特性优化的注意力机制改进方案。相关衍生工作如MahaSQuAD专注于单一语言的深度优化，而CrossLingualQA则探索了跨语言零样本迁移的新范式，共同构成了印度语言处理的生态系统。

数据集最近研究