Bharat_NanoArguAna_mr

Hugging Face2025-01-26 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_mr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Bharat-NanoBEIR集合的一部分，专门为印度语言的信息检索任务设计，特别是马拉地语版本。数据集来源于NanoBEIR项目，提供了包含50个查询和最多10K文档的小型BEIR数据集版本。该数据集特别适用于马拉地语的信息检索系统开发、多语言搜索能力评估、跨语言信息检索研究以及马拉地语语言模型的搜索任务基准测试。数据集包含三个主要部分：语料库（马拉地语文档集合）、查询（马拉地语搜索查询）和QRels（连接查询与相关文档的相关性判断）。

创建时间：

2025-01-25

原始信息汇总

Bharat-NanoArguAna_mr 数据集概述

数据集基本信息

语言：Marathi (mr)
许可证：CC-BY-4.0
多语言性：单语种
来源数据集：NanoArguAna
任务类别：文本检索
任务ID：文档检索
标签：文本检索

数据集描述

概述：该数据集是Bharat-NanoBEIR集合的一部分，为印度语言提供信息检索数据集，源自NanoBEIR项目，包含50个查询和最多10K个文档的较小版本。
用途：用于信息检索系统开发、多语言搜索能力评估、跨语言信息检索研究和马拉地语搜索任务的语言模型基准测试。

数据集结构

Corpus：包含马拉地语文档的集合
Queries：马拉地语的搜索查询
QRels：将查询与相关文档关联的相关性判断

数据集配置

corpus：包含_id（字符串类型）和text（字符串类型）字段，训练集分割
qrels：包含query-id（字符串类型）和corpus-id（字符串类型）字段，训练集分割
queries：包含_id（字符串类型）和text（字符串类型）字段，训练集分割

数据文件路径

Corpus：corpus/train-*
Qrels：qrels/train-*
Queries：queries/train-*

引用

@misc{bharat-nanobeir, title={Bharat-NanoBEIR: Indian Language Information Retrieval Datasets}, year={2024}, url={https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_mr} }

搜集汇总

数据集介绍

构建方式

Bharat_NanoArguAna_mr数据集是在NanoArguAna数据集的基础上，针对信息检索任务进行的马哈拉施特拉邦语（Marathi）版本改编。该数据集的构建保持了NanoBEIR的核心结构，包括文档集合、查询和相关性判断，通过翻译和调整，使其适用于马哈拉施特拉邦语的文本处理。

使用方法

使用该数据集，研究者可以开发针对马哈拉施特拉邦语的IR系统，评估多语言搜索能力，进行跨语言信息检索研究，以及为搜索任务对马哈拉施特拉邦语语言模型进行基准测试。数据集分为三个主要部分：文档集合、查询和相关性判断，用户可以根据具体的研究需求，选择相应的数据部分进行操作。

背景与挑战

背景概述

Bharat_NanoArguAna_mr数据集是Bharat-NanoBEIR集合的一部分，致力于为印度语言提供信息检索数据集。该数据集源自NanoBEIR项目，后者提供了包含50个查询和最多10K文档的BEIR数据集的较小版本。Bharat_NanoArguAna_mr数据集是NanoArguAna数据集的马拉地语版本，专为信息检索任务进行了翻译和调整。该数据集的创建，旨在推动马拉地语信息检索系统的发展，并评估多语言搜索能力，为跨语言信息检索研究和搜索任务的马拉地语语言模型基准测试提供了重要资源。该数据集由卡尔·费伊曼于2024年发布，并遵循CC-BY-4.0许可。

当前挑战

在构建Bharat_NanoArguAna_mr数据集的过程中，研究人员面临了多个挑战。首先，如何确保翻译和调整过程能够保持原始NanoBEIR数据集的核心结构，同时适应马拉地语的特性，是一大挑战。其次，信息检索领域的问题，如相关性判断的准确性和查询与文档匹配的效率，也是研究必须克服的关键难题。此外，构建一个能够适应多语言搜索和跨语言信息检索研究的数据集，同样考验着数据集构建者的技术和创新思维。

常用场景

经典使用场景

在信息检索领域，Bharat_NanoArguAna_mr数据集的经典使用场景在于为马哈拉施特拉邦语（Marathi）的信息检索系统提供基准测试和评估。该数据集通过包含大量文档和查询，以及相关性判断，使得研究者能够开发和评估适用于该语言的信息检索算法，进而提升搜索系统的性能和准确度。

解决学术问题

该数据集解决了在非英语语言环境下，特别是在印度语言中进行信息检索的学术研究问题。它为研究者提供了一个可靠的基础，以探究多语言搜索能力、跨语言信息检索以及特定语言模型在搜索任务中的表现，从而推动该领域的研究向前发展。

实际应用

在实际应用中，Bharat_NanoArguAna_mr数据集可用于构建和优化马哈拉施特拉邦语的搜索引擎，服务于当地的语言环境。这对于提高该地区的信息获取效率，以及促进当地语言内容的数字化和普及具有重要意义。

数据集最近研究