Bharat_NanoArguAna_bn

Hugging Face2025-01-26 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_bn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Bharat-NanoBEIR集合的一部分，专门为印度语言提供信息检索数据集。它是NanoBEIR项目的一部分，提供了包含50个查询和最多10K文档的BEIR数据集的较小版本。此特定数据集是NanoArguAna数据集的孟加拉语版本，专门为信息检索任务进行了调整和翻译。数据集包含三个主要部分：语料库（孟加拉语文档集合）、查询（孟加拉语搜索查询）和QRels（连接查询与相关文档的相关性判断）。

创建时间：

2025-01-25

原始信息汇总

Bharat-NanoArguAna_bn 数据集概述

数据集基本信息

语言: Bengali (bn)
许可证: CC-BY-4.0
多语言性: 单语 (monolingual)
源数据集: NanoArguAna
任务类别: 文本检索 (text-retrieval)
任务ID: 文档检索 (document-retrieval)
标签: 文本检索 (text-retrieval)

数据集描述

概述: Bharat-NanoBEIR 集合的一部分，为印度语言提供信息检索数据集。该数据集是 NanoBEIR 项目的简化版本，包含 50 个查询和最多 10K 个文档。
数据集结构: 包括三个主要组成部分：
1. 语料库 (Corpus): 孟加拉语文档集合
2. 查询 (Queries): 孟加拉语搜索查询
3. 相关性判断 (QRels): 连接查询与相关文档的相关性判断

使用场景

信息检索 (IR) 系统开发
多语言搜索能力评估
跨语言信息检索研究
孟加拉语搜索任务的语言模型基准测试

数据集配置

语料库 (corpus):
- 训练集路径: corpus/train-*
相关性判断 (qrels):
- 训练集路径: qrels/train-*
查询 (queries):
- 训练集路径: queries/train-*

引用信息

@misc{bharat-nanobeir, title={Bharat-NanoBEIR: Indian Language Information Retrieval Datasets}, year={2024}, url={https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_bn} }

搜集汇总

数据集介绍

构建方式

Bharat_NanoArguAna_bn数据集是在NanoArguAna数据集的基础上，针对孟加拉语进行翻译和适配而成的。它包含三个主要部分：文档集合（corpus）、查询（queries）和相关性判断（qrels）。该数据集的构建遵循了信息检索领域的标准框架，通过收集和整理孟加拉语文档，以及构建对应的查询和相关性判断，为信息检索任务提供了基础数据支持。

特点

该数据集的特点在于其专注于孟加拉语的信息检索任务，为研究者提供了一个专门针对该语言的实验平台。它保持了原始NanoBEIR数据集的核心结构，同时遵循CC-BY-4.0许可，保证了数据的开放性和可访问性。此外，数据集的多语言特性使其在跨语言信息检索研究中具有重要价值。

使用方法

使用Bharat_NanoArguAna_bn数据集，研究者可以开展信息检索系统的开发、多语言搜索能力的评估、跨语言信息检索研究，以及孟加拉语搜索任务的基准测试。用户需遵循数据集的结构，分别利用文档集合、查询和相关性判断进行相应的实验设置和性能评估。

背景与挑战

背景概述

Bharat_NanoArguAna_bn数据集，作为Bharat-NanoBEIR集合的一部分，专注于为印度语言提供信息检索数据集。该数据集源自NanoBEIR项目，其本身是BEIR数据集的缩小版，包含50个查询和最多10K个文档。Bharat_NanoArguAna_bn数据集特别针对孟加拉语进行了翻译和调整，以适应信息检索任务的需求。其创建旨在推动孟加拉语信息检索系统的发展，评估多语言搜索能力，并进行跨语言信息检索研究。该数据集的问世，为孟加拉语处理领域带来了新的研究资源，并有望提升相关任务的性能基准。自2024年起，该数据集由相关研究人员和机构推出，对信息检索领域的发展产生了积极影响。

当前挑战

在构建Bharat_NanoArguAna_bn数据集的过程中，研究人员面临了多项挑战。首先，确保翻译和调整过程中数据集的结构和内容质量不受影响是一大挑战。其次，信息检索任务在孟加拉语等低资源语言中存在特有的难度，如词汇资源有限、标注质量控制和相关度判断等。此外，数据集的构建还需克服多语言处理的技术难题，以及确保数据集的可用性和可访问性，从而为研究人员提供一个可靠的评价基准。这些挑战不仅体现在数据集的构建过程中，也体现在后续的应用研究中，对研究人员的创新能力提出了更高的要求。

常用场景

经典使用场景

在信息检索领域，Bharat_NanoArguAna_bn数据集被广泛用于发展针对孟加拉语的检索系统。其经典使用场景在于，研究人员可通过该数据集训练并评估模型在处理孟加拉语文档和查询的能力，从而提升跨语言检索的性能。

实际应用

在实践应用中，Bharat_NanoArguAna_bn数据集可用于改善孟加拉语搜索引擎的性能，促进本地化信息服务的提供，满足孟加拉语用户的信息检索需求。

衍生相关工作

基于Bharat_NanoArguAna_bn数据集，研究者们衍生出了多项相关工作，包括但不限于多语言检索模型的开发、检索评价标准的制定，以及针对孟加拉语特性的信息检索技术研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集