INDIC QA BENCHMARK

Name: INDIC QA BENCHMARK
Creator: 印度孟买理工学院, IBM印度研究院
Published: 2024-07-18 21:57:16
License: 暂无描述

arXiv2024-07-18 更新2024-07-22 收录

下载链接：

https://www.kaggle.com/competitions/chaii-hindi-and-tamil-question-answering

下载链接

链接失效反馈

官方服务：

资源简介：

INDIC QA BENCHMARK是由印度孟买理工学院和IBM印度研究院共同创建的多语言问题回答评估基准，涵盖11种主要印度语言。该数据集包括提取式和生成式问题回答任务，涉及多个领域如地理、印度文化、新闻等。数据集的创建过程包括翻译现有数据集和使用Gemini模型生成合成数据，并通过人工验证确保质量。该数据集主要用于评估和提升大型语言模型在低资源印度语言中的问题回答能力。

INDIC QA BENCHMARK is a multilingual question answering evaluation benchmark co-created by the Indian Institute of Technology Bombay and IBM Research India, covering 11 major Indian languages. This dataset includes extractive and generative question answering tasks, spanning multiple domains such as geography, Indian culture, news and others. The dataset was developed by translating existing datasets and generating synthetic data using the Gemini model, with manual validation conducted to ensure data quality. It is primarily used to evaluate and enhance the question answering capabilities of large language models (LLMs) in low-resource Indian languages.

提供机构：

印度孟买理工学院, IBM印度研究院

创建时间：

2024-07-18

原始信息汇总

chaii - 印地语和泰米尔语问答数据集

概述

该数据集旨在识别印度语言文章中的问题答案。

详细描述

标题: chaii - Hindi and Tamil Question Answering
描述: 识别印度语言文章中的问题答案

搜集汇总

数据集介绍

构建方式

INDIC QA BENCHMARK数据集的构建采用了多种方法。首先，它收集了现有的数据集，包括Hindi SQuAD、XQuAD、ChaII Dataset、Indic QA、MLQA、MS MARCO、NQ-Open trans和XORQA等。其次，它将一些英文QA数据集翻译成11种主要印度语言。此外，该数据集还通过Gemini模型生成了一些合成数据，以创建给定段落的问题-答案对，并经过人工验证以确保质量。最后，它还包含了一些用于检索增强生成(RAG)系统的数据集，如Llama Index。

使用方法

INDIC QA BENCHMARK数据集的使用方法如下：首先，研究人员可以使用该数据集来评估现有的大型语言模型在印度语言中的问答能力。其次，他们可以使用该数据集来训练和微调自己的模型，以提高其在印度语言中的问答能力。此外，他们还可以使用该数据集来研究印度语言中问答能力的局限性，并探索提高其性能的方法。

背景与挑战

背景概述

自然语言处理领域，特别是大型语言模型（LLMs）在处理非英语语言方面，长期面临着数据稀缺的挑战。印度作为世界上人口最多的国家，拥有众多低资源语言，这些语言在自然语言处理领域的研究和应用相对较少。为了填补这一空白，印度理工学院孟买分校和IBM印度研究院的研究人员于2024年联合推出了INDIC QA BENCHMARK数据集。该数据集旨在评估LLMs在11种主要印度语言中的问答能力，这些语言分属两个语系。INDIC QA BENCHMARK数据集包括抽取式和摘要式问答任务，并包含现有的数据集以及将英语问答数据集翻译成印度语言的数据。此外，还使用Gemini模型生成了一个合成数据集，以创建给定段落的问题-答案对，并经过人工验证以确保质量。该数据集的发布有望推动对低资源语言LLMs问答能力的研究。

当前挑战

INDIC QA BENCHMARK数据集面临的挑战主要包括：1) 低资源语言的问答能力评估：尽管LLMs在英语问答方面表现出色，但在低资源语言的问答任务中，其性能往往不佳；2) 数据集构建过程中的挑战：在构建INDIC QA BENCHMARK数据集的过程中，研究人员遇到了数据翻译、数据质量和数据多样性的挑战。为了解决这些问题，研究人员采用了多种方法，包括翻译现有的数据集、生成合成数据集以及使用多语言翻译模型来提高翻译质量。尽管如此，数据集中可能仍然存在一些固有的偏差和主观解释问题。

常用场景

经典使用场景

INDIC QA BENCHMARK 数据集是专为评估大型语言模型（LLMs）在印地语等11种主要印度语言中的上下文问答能力而设计的。该数据集涵盖了提取式和抽象式问答任务，并包含了现有数据集以及将英语问答数据集翻译成印度语言的版本。此外，还使用 Gemini 模型生成了一个合成数据集，用于创建给定段落的问题答案对，并经过人工验证以确保质量。INDIC QA BENCHMARK 数据集已被用于评估各种多语言大型语言模型及其指令微调变体，并发现它们在低资源语言上的性能较差。该数据集的发布旨在激发进一步研究低资源语言的问答能力。

解决学术问题

INDIC QA BENCHMARK 数据集解决了在非英语语言中评估大型语言模型（LLMs）上下文问答能力的难题。由于缺乏非英语语言的基准，这一领域的评估一直受到限制。INDIC QA BENCHMARK 数据集的发布填补了这一空白，为研究人员提供了一个用于评估 LLMs 在低资源语言中的问答能力的工具。这对于推动低资源语言的自然语言处理（NLP）研究具有重要意义，有助于提高 LLMs 在这些语言中的性能和可用性。

实际应用

INDIC QA BENCHMARK 数据集的实际应用场景包括但不限于以下方面：1. 评估和比较不同 LLMs 在低资源印度语言中的问答能力；2. 作为 LLMs 训练和微调的基准，以提高它们在低资源语言中的性能；3. 为开发低资源语言的问答系统提供数据支持。该数据集的发布有助于推动低资源语言的 NLP 研究，并促进相关技术的应用。

数据集最近研究