IndicSQuAD

Name: IndicSQuAD
Creator: L3Cube Labs
Published: 2025-05-07 00:42:54
License: 暂无描述

arXiv2025-05-07 更新2024-06-21 收录

下载链接：

https://github.com/l3cube-pune/indic-nlp

下载链接

链接失效反馈

官方服务：

资源简介：

IndicSQuAD是一个全面的多语言问答数据集，涵盖了九种主要的印度语言，系统地从SQuAD数据集中衍生而来。该数据集由L3Cube Labs创建，旨在解决印度语言资源匮乏的问题，为低资源语言模型的研究和开发提供坚实的基础。IndicSQuAD包括每个语言的广泛训练、验证和测试集，总共有超过15万个问答对，确保了语言的高保真度和准确答案跨度对齐。该数据集的创建过程涉及从英语SQuAD数据集中翻译和调整，以适应印度语言的独特特征，如形态变化、句法差异等。IndicSQuAD的应用领域包括信息检索、教育、医疗保健服务、治理应用以及人工智能驱动的客户支持系统，旨在为印度语言使用者提供更好的知识获取渠道，减少数字不平等现象。

IndicSQuAD is a comprehensive multilingual question answering (QA) dataset that covers nine major Indian languages and is systematically derived from the SQuAD dataset. This dataset was developed by L3Cube Labs to address the shortage of language resources for Indian languages and establish a solid foundation for research and development of low-resource language models. IndicSQuAD provides extensive training, validation, and test sets for each of the covered languages, boasting a total of over 150,000 question-answer pairs, which ensures high linguistic fidelity and precise alignment of answer spans. The creation of this dataset involved translating and adapting the English SQuAD dataset to cater to the unique linguistic features of Indian languages, including morphological variations, syntactic differences, and other similar characteristics. Application domains of IndicSQuAD encompass information retrieval, education, healthcare services, governance applications, and AI-powered customer support systems, with the aim of enhancing knowledge access for users of Indian languages and mitigating digital inequality.

提供机构：

L3Cube Labs

创建时间：

2025-05-07

原始信息汇总

L3Cube-IndicNLP 数据集概述

项目简介

L3Cube-IndicNLP项目旨在为印度语言改进NLP资源。
包含10种印度语言的单语BERT模型。
提供单语和多语言（跨语言）Sentence BERT模型。
这些模型在下游任务中提供最先进的结果。

单语BERT模型

详细论文：https://arxiv.org/abs/2211.11418
包含以下语言的BERT模型：
- 马拉地语（Marathi BERT）
- 印地语（Hindi BERT）
- Dev BERT（印地语+马拉地语）
- 卡纳达语（Kannada BERT）
- 泰卢固语（Telugu BERT）
- 马拉雅拉姆语（Malayalam BERT）
- 泰米尔语（Tamil BERT）
- 古吉拉特语（Gujarati BERT）
- 奥里亚语（Oriya BERT）
- 孟加拉语（Bengali BERT）
- 旁遮普语（Punjabi BERT）
- 阿萨姆语（Assamese BERT）

印度语言Sentence BERT模型

详细论文：https://arxiv.org/abs/2304.11434
包含以下语言的相似度模型和Sentence BERT模型：
- 马拉地语（Marathi Similarity, Marathi SBERT）
- 印地语（Hindi Similarity, Hindi SBERT）
- 卡纳达语（Kannada Similarity, Kannada SBERT）
- 泰卢固语（Telugu Similarity, Telugu SBERT）
- 马拉雅拉姆语（Malayalam Similarity, Malayalam SBERT）
- 泰米尔语（Tamil Similarity, Tamil SBERT）
- 古吉拉特语（Gujarati Similarity, Gujarati SBERT）
- 奥里亚语（Oriya Similarity, Oriya SBERT）
- 孟加拉语（Bengali Similarity, Bengali SBERT）
- 旁遮普语（Punjabi Similarity, Punjabi SBERT）
- 印度语言（多语言）（Indic Similarity, Indic SBERT）

许可证

所有资源均采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议（CC BY-NC-SA 4.0）。
数据集仅供研究用途。

引用

bibtex @article{joshi2022l3cube_hind, title={L3Cube-HindBERT and DevBERT: Pre-Trained BERT Transformer models for Devanagari based Hindi and Marathi Languages}, author={Joshi, Raviraj}, journal={arXiv preprint arXiv:2211.11418}, year={2022} }

bibtex @article{deode2023l3cube, title={L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT}, author={Deode, Samruddhi and Gadre, Janhavi and Kajale, Aditi and Joshi, Ananya and Joshi, Raviraj}, journal={arXiv preprint arXiv:2304.11434}, year={2023} }

相关出版物

Joshi, Raviraj. "L3Cube-HindBERT and DevBERT: Pre-Trained BERT Transformer models for Devanagari based Hindi and Marathi Languages." arXiv preprint arXiv:2211.11418 (2022).
Deode, Samruddhi, et al. "L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT." arXiv preprint arXiv:2304.11434 (2023).
Mirashi, Aishwarya, et al. "L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages." arXiv preprint arXiv:2401.02254 (2024).

搜集汇总

数据集介绍

构建方式

L3Cube-IndicQuest数据集的构建旨在为评估大型语言模型（LLMs）在印度语境中的知识表示能力提供一个黄金标准。该数据集包含4000个问题-答案对，其中200对为英语，其余19种印度语言各200对，涵盖文学、历史、地理、政治和经济五个特定于印度的领域。数据集的构建过程始于英语问题-答案对的制定，这些对从维基百科和知名教育网站等可靠来源中提取，并经过手动验证以确保准确性。随后，这些经过验证的问题-答案对通过Google Translate翻译成19种印度语言，以保持语言的准确性。

特点

L3Cube-IndicQuest数据集的主要特点在于其针对印度语境的区域性知识评估。该数据集不仅涵盖了多种印度语言，还特别关注了印度文化和社会的多个关键领域，如文学、历史、地理、政治和经济。此外，数据集的设计允许进行基于参考的评估和模型作为评判的评估，提供了双重评估机制。这种设计使得数据集能够全面评估LLMs在处理低资源语言时的表现，特别是在涉及区域性和文化特定知识时的表现。

使用方法

L3Cube-IndicQuest数据集可用于多种评估目的，包括基于参考的评估和模型作为评判的评估。在基于参考的评估中，模型生成的答案通过与数据集中的黄金标准答案进行比较，使用ROUGE分数等指标进行评估。而在模型作为评判的评估中，大型语言模型（如Llama-3.1-405b-it）被用作自动评估工具，根据预定义的评估标准（如事实准确性、相关性、清晰度、语言一致性和简洁性）对模型输出进行评分。这种双重的评估方法使得数据集能够提供对LLMs在印度语境中知识表示能力的全面洞察。

背景与挑战

背景概述

近年来，大型语言模型（LLMs）在整合印度语言方面取得了显著进展，然而，量化评估这些语言在多语言模型中的表现是否与全球主导语言（如英语）相当，仍然是一个关键问题。当前，缺乏专门用于评估LLMs在各种印度语言中区域知识的基准数据集。L3Cube-IndicQuest数据集由Pune Institute of Computer Technology、Indian Institute of Technology Madras和L3Cube Labs的研究人员共同开发，旨在填补这一空白。该数据集包含200个问题-答案对，涵盖英语和19种印度语言，涉及五个特定于印度区域的领域。通过提供一个黄金标准的基准，L3Cube-IndicQuest旨在评估多语言LLMs在理解和表示与印度背景相关的知识方面的表现，从而推动多语言模型的改进。

当前挑战

L3Cube-IndicQuest数据集在构建过程中面临多个挑战。首先，由于低资源印度语言缺乏大规模、结构化和标注良好的数据集，导致这些语言在当前语言模型中的表示显著低于英语和其他主要全球语言。其次，区域差异和文化特定知识的翻译错误或遗漏问题频繁出现，传统知识的上下文误表示或完全缺失也是一个重要问题。此外，现有基准主要关注英语和其他广泛使用的语言，印度语言的评估不足。最后，缺乏针对印度文化区域相关知识的问答数据集，限制了模型在准确评估印度语言表示方面的能力。这些挑战共同构成了L3Cube-IndicQuest数据集在解决领域问题和构建过程中所面临的主要障碍。

常用场景

经典使用场景

L3Cube-IndicQuest数据集的经典使用场景在于评估多语言大型语言模型（LLMs）在印度语境中的知识表示能力。该数据集通过包含200个问题-答案对，涵盖英语和19种印度语言，涉及五个特定于印度地区的领域，为研究人员提供了一个黄金标准基准。这种设计使得数据集不仅适用于基于参考的评估，还适用于模型作为评判者的评估，从而全面评估LLMs在理解和表示印度相关知识方面的表现。

衍生相关工作

L3Cube-IndicQuest数据集的发布催生了一系列相关研究工作，特别是在评估和改进多语言大型语言模型（LLMs）在印度语言中的表现方面。例如，研究人员可以基于该数据集开发新的评估方法和指标，进一步细化对LLMs在印度语境中知识表示能力的评估。此外，该数据集还激发了对低资源语言处理技术的深入研究，推动了印度语言资源的开发和利用，促进了多语言模型的跨语言迁移能力和性能提升。

数据集最近研究