BanglaQuAD

Name: BanglaQuAD
Creator: 德累斯顿工业大学
Published: 2024-10-14 15:39:59
License: 暂无描述

arXiv2024-10-14 更新2024-10-16 收录

下载链接：

https://github.com/rashad101/BanglaQuAD-LREC-COLING-24

下载链接

链接失效反馈

官方服务：

资源简介：

BanglaQuAD是由BanglaAI和德累斯顿工业大学合作创建的一个高质量的孟加拉语开放领域问答数据集。该数据集包含30,808个由母语者标注的问题-答案对，基于孟加拉语维基百科的658篇文章构建。数据集的创建过程包括文章筛选、文本清洗和人工标注，确保了数据的高质量。BanglaQuAD涵盖了广泛的词汇和问题类型，旨在用于机器阅读理解和信息检索任务，以解决孟加拉语自然语言处理中的低资源问题。

BanglaQuAD is a high-quality Bengali open-domain question answering dataset jointly created by BanglaAI and Technische Universität Dresden. It contains 30,808 question-answer pairs annotated by native speakers, and is constructed based on 658 articles from the Bengali Wikipedia. The dataset creation process includes article screening, text cleaning and manual annotation, which ensures the high quality of the data. BanglaQuAD covers a wide range of vocabulary and question types, and is intended for machine reading comprehension and information retrieval tasks to address the low-resource issue in Bengali natural language processing.

提供机构：

德累斯顿工业大学

创建时间：

2024-10-14

原始信息汇总

BanglaQuAD-LREC-COLING-24

数据集概述

名称: BanglaQuAD-LREC-COLING-24
相关论文: LREC-COLING 2024 paper Incorporating Query Recommendation for Improving In-Car Conversational Search

搜集汇总

数据集介绍

构建方式

BanglaQuAD数据集的构建基于658篇精选的孟加拉语维基百科文章，这些文章从超过12,000篇孟加拉语维基百科文章中挑选而出，依据其重要性和常见话题。通过深入挖掘官方维基百科分类及其子分类，确保了数据集话题的广泛覆盖。随后，由七名母语为孟加拉语的人类标注者，使用自研的BnAnno标注工具，从这些文章的段落中构建了30,808对高质量的问题-答案对。这一过程不仅确保了数据的高质量，还通过多样化的问答类型和可变长度的答案，增强了数据集的多样性和挑战性。

使用方法

BanglaQuAD数据集适用于开发和评估孟加拉语的机器阅读理解和信息检索系统。研究者可以使用该数据集训练和测试模型，以提升系统对孟加拉语的理解和回答能力。数据集的80-20训练-测试分割提供了24,646个训练样本和6,162个测试样本，便于进行系统的性能评估。此外，公开的BnAnno标注工具也为进一步的研究和数据集扩展提供了便利。

背景与挑战

背景概述

在自然语言处理（NLP）领域，孟加拉语（Bengali）作为全球第七大使用语言，却长期被视为低资源语言。问答系统在非结构化文本上的应用是一个具有挑战性的任务，因为它要求系统能够理解问题和文本内容。尽管英语问答系统的研究已相当成熟，但孟加拉语问答系统的研究却相对较少。现有的孟加拉语问答数据集多通过直接翻译英语数据集构建，这导致了数据噪声和语法结构不准确的问题。为了填补这一空白，BanglaQuAD数据集由BanglaAI团队和德累斯顿工业大学合作创建，包含30,808对由母语者标注的问题-答案对，基于孟加拉语维基百科文章构建，旨在为机器阅读理解和信息检索任务提供高质量的孟加拉语数据支持。

当前挑战

BanglaQuAD数据集的构建面临多重挑战。首先，直接翻译英语数据集的方法导致孟加拉语数据集存在语义错误和语法结构问题。其次，现有数据集缺乏与孟加拉语文化和地域相关的术语和主题。此外，构建高质量的孟加拉语问答数据集需要大量的本地化工作，包括选择合适的文章、设计有效的标注工具以及确保标注质量。BanglaQuAD通过引入BnAnno标注工具和严格的标注流程，试图解决这些问题，但其多样化的问答类型和可变长度的答案仍对问答系统的理解和处理能力提出了高要求。

常用场景

经典使用场景

BanglaQuAD数据集在孟加拉语自然语言处理领域中，被广泛应用于机器阅读理解和信息检索任务。其经典使用场景包括构建和评估孟加拉语问答系统，这些系统能够从非结构化文本中提取连续的答案片段，以回答用户提出的问题。通过提供高质量的人工标注问答对，BanglaQuAD为研究人员提供了一个标准化的基准，用于开发和测试孟加拉语问答模型。

解决学术问题

BanglaQuAD数据集解决了孟加拉语自然语言处理领域中缺乏高质量问答数据集的问题。它通过提供30,808对由母语者标注的问答对，填补了这一空白，促进了孟加拉语问答系统的研究和发展。此外，该数据集还解决了现有数据集因翻译引入的噪声和结构错误问题，确保了数据的高质量和多样性，从而提升了问答系统的准确性和鲁棒性。

实际应用

在实际应用中，BanglaQuAD数据集可用于开发面向孟加拉语用户的智能问答系统，如在线客服、教育辅助工具和信息检索系统。这些系统能够帮助用户快速获取所需信息，提升用户体验。此外，该数据集还可用于构建孟加拉语的自动问答机器人，应用于新闻摘要、知识问答和社交媒体分析等领域，进一步推动孟加拉语自然语言处理技术的发展。

数据集最近研究