Bharat_NanoArguAna_ne

Hugging Face2025-01-26 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_ne

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Bharat-NanoBEIR集合的一部分，专门为印度语言提供信息检索数据集。它是NanoArguAna数据集的尼泊尔语版本，专门用于信息检索任务。数据集包含三个主要部分：语料库（Corpus）、查询（Queries）和相关性判断（QRels）。语料库包含尼泊尔语的文档集合，查询包含尼泊尔语的搜索查询，QRels则包含连接查询与相关文档的相关性判断。该数据集旨在支持尼泊尔语的信息检索系统开发、多语言搜索能力评估、跨语言信息检索研究以及尼泊尔语搜索任务的基准测试。

创建时间：

2025-01-25

原始信息汇总

Bharat-NanoBEIR: 印度语言信息检索数据集

概述

数据集名称：Bharat-NanoArguAna_ne
语言：尼泊尔语 (ne)
许可：CC-BY-4.0
多语言性：单语
任务类别：文本检索
任务ID：文档检索
标签：文本检索
数据来源：NanoArguAna
数据集用途：信息检索系统开发、多语言搜索能力评估、跨语言信息检索研究、尼泊尔语搜索任务的语言模型基准测试

数据集描述

数据集简介：该数据集是Bharat-NanoBEIR集合的一部分，为印度语言提供信息检索数据集。它是NanoBEIR项目的较小版本，包含50个查询和最多10K个文档。
适应语言：尼泊尔语
数据集结构：包含文档集合、搜索查询和相关性判断

数据集结构

Corpus：尼泊尔语文档集合
- 特征：文档ID (_id)，文本 (text)
- 划分：训练集 (train)
Queries：尼泊尔语搜索查询
- 特征：查询ID (_id)，文本 (text)
- 划分：训练集 (train)
QRels：将查询与相关文档连接的相关性判断
- 特征：查询ID (query-id)，文档ID (corpus-id)
- 划分：训练集 (train)

数据文件

Corpus：训练集 (train) - 路径：corpus/train-*
QRels：训练集 (train) - 路径：qrels/train-*
Queries：训练集 (train) - 路径：queries/train-*

引用

如果您使用这个数据集，请引用：

@misc{bharat-nanobeir, title={Bharat-NanoBEIR: Indian Language Information Retrieval Datasets}, year={2024}, url={https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_ne} }

搜集汇总

数据集介绍

构建方式

Bharat_NanoArguAna_ne数据集的构建，是在NanoArguAna数据集的基础上，针对尼泊尔语（Nepali）进行翻译与适配，形成了适用于信息检索任务的尼泊尔语数据集。该数据集包含三个主要配置：文档集合（corpus）、查询（queries）和相关性判断（qrels），通过这些配置提供训练集的划分。文档和查询均为字符串类型，并以唯一的标识符进行区分。

使用方法

用户可以通过访问HuggingFace的仓库来获取该数据集，使用时主要涉及三个文件：corpus/train-*、qrels/train-*和queries/train-*。这些文件分别包含了训练所需的文档、相关性判断和查询。该数据集适用于尼泊尔语信息检索系统的开发、多语言搜索能力的评估、跨语言信息检索研究以及尼泊尔语搜索任务的模型基准测试。

背景与挑战

背景概述

Bharat_NanoArguAna_ne数据集是Bharat-NanoBEIR集合的一部分，旨在为印度语言提供信息检索数据集。该数据集基于NanoBEIR项目，后者提供包含50个查询和最多10K文档的BEIR数据集的小型版本。该数据集的创建，是为了支持信息检索系统在尼泊尔语中的应用，并保持与原始NanoBEIR数据集的核心结构一致，使其适用于尼泊尔语处理。该数据集的问世，标志着尼泊尔语信息检索领域的一个重要进展，为研究人员和开发者提供了一个宝贵的资源，以促进多语言搜索能力和跨语言信息检索研究的发展。

当前挑战

尽管Bharat_NanoArguAna_ne数据集为尼泊尔语信息检索领域的研究提供了有力支持，但在构建和应用过程中也面临诸多挑战。首先，翻译和适应原NanoBEIR数据集以适应尼泊尔语环境，需要克服语言特性带来的困难。其次，数据集的构建过程中，确保查询与文档的相关性判断准确无误，是一项艰巨的任务。此外，尼泊尔语作为一种低资源语言，相关的语言模型和检索系统的开发与评估，也面临着技术和资源的限制。

常用场景

经典使用场景

Bharat_NanoArguAna_ne数据集，作为信息检索领域的重要资源，其经典使用场景主要集中在印度语言的信息检索系统开发、多语言搜索能力评估、跨语言信息检索研究以及尼泊尔语搜索任务的基准测试等方面。该数据集提供了丰富的文档集合、查询实例以及相关性判断，为研究人员提供了一套完整的实验环境。

解决学术问题

该数据集解决了尼泊尔语信息检索研究中的关键问题，如缺乏针对性的尼泊尔语文档集合和查询实例，以及缺少标准的相关性判断。其意义在于为尼泊尔语信息检索领域提供了高质量的数据支撑，促进了学术研究的深入和语言技术的进步。

实际应用

在实际应用中，Bharat_NanoArguAna_ne数据集可用于提升尼泊尔语搜索引擎的性能，优化信息检索系统，进而服务于尼泊尔语教育、政府服务和商业信息查询等多个领域，对提升印度语言信息技术的普及率和实用性具有积极影响。

数据集最近研究