Bharat_NanoArguAna_ur

Hugging Face2025-01-26 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_ur

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Bharat-NanoBEIR集合的一部分，提供了印度语言的信息检索数据集。它是NanoBEIR项目的乌尔都语版本，专门用于信息检索任务。数据集包含三个主要部分：语料库（乌尔都语文档集合）、查询（乌尔都语搜索查询）和QRels（连接查询与相关文档的相关性判断）。该数据集适用于乌尔都语信息检索系统的开发、多语言搜索能力的评估、跨语言信息检索研究以及乌尔都语语言模型的搜索任务基准测试。

创建时间：

2025-01-25

原始信息汇总

Bharat-NanoArguAna_ur 数据集概述

数据集基本信息

语言：乌尔都语 (ur)
许可证：知识共享署名 4.0 (cc-by-4.0)
多语言性：单语言
来源数据集：NanoArguAna
任务分类：文本检索
任务ID：文档检索
标签：文本检索

数据集描述

数据集简介：Bharat-NanoArguAna_ur 数据集是 Bharat-NanoBEIR 集合的一部分，为印度语言提供信息检索数据集。该数据集基于 NanoBEIR 项目，包含 50 个查询和最多 10K 个文档的较小版本。
数据集用途：用于乌尔都语信息检索系统开发、评估多语言搜索能力、跨语言信息检索研究以及乌尔都语搜索任务的语言模型基准测试。

数据集结构

Corpus：乌尔都语文档集合
Queries：乌尔都语搜索查询
QRels：将查询与相关文档相关联的相关性判断

数据集配置

corpus：包含 _id（字符串类型）和 text（字符串类型）字段，分为训练集
qrels：包含 query-id（字符串类型）和 corpus-id（字符串类型）字段，分为训练集
queries：包含 _id（字符串类型）和 text（字符串类型）字段，分为训练集

数据文件

corpus：训练集文件路径为 corpus/train-*
qrels：训练集文件路径为 qrels/train-*
queries：训练集文件路径为 queries/train-*

引用信息

@misc{bharat-nanobeir, title={Bharat-NanoBEIR: Indian Language Information Retrieval Datasets}, year={2024}, url={https://huggingface.co/datasets/carlfeynman/Bharat_NanoArguAna_ur} }

搜集汇总

数据集介绍

构建方式

Bharat_NanoArguAna_ur数据集是在NanoArguAna数据集的基础上，针对信息检索任务进行了翻译与适配，形成了适用于乌尔都语（Urdu）处理的变体。该数据集的构建保持了NanoBEIR的核心结构，包含了文档集合、查询集合以及相关性判断，确保了数据集的完整性和可用性。

特点

该数据集的特点在于，它是一个专门针对乌尔都语的信息检索任务设计的单语种数据集。它遵循Creative Commons BY 4.0许可，提供了训练集的文档、查询和相关判断，能够支持信息检索系统的开发与评估，以及跨语言信息检索研究。其语言的一致性和领域的专业性，使得该数据集在乌尔都语处理领域具有较高的研究价值。

使用方法

使用Bharat_NanoArguAna_ur数据集，研究人员可以开展乌尔都语信息检索系统的开发与测试，评估系统的检索效果，以及进行相关的语言模型基准测试。数据集的每部分均按照标准的数据分割方式组织，用户可以根据自己的研究需求，通过指定的路径访问训练数据。

背景与挑战

背景概述

Bharat_NanoArguAna_ur数据集，作为Bharat-NanoBEIR集合的一部分，旨在为印度语言提供信息检索领域的研究资源。该数据集衍生于NanoBEIR项目，后者提供了包含50个查询和最多10K文档的BEIR数据集的较小版本。Bharat_NanoArguAna_ur数据集特别为信息检索任务进行了乌尔都语的翻译和调整，保留了原始NanoBEIR的核心结构，使其适用于乌尔都语言处理。该数据集的创建，为乌尔都语的信息检索系统开发、多语言搜索能力评估、跨语言信息检索研究以及乌尔都语言模型搜索任务的基准测试提供了宝贵的资源。该数据集由卡尔·费伊曼于2024年发布，并遵循CC-BY-4.0许可。

当前挑战

Bharat_NanoArguAna_ur数据集在构建和应用过程中面临多项挑战。首先，乌尔都语作为一种非罗马化语言，其字符编码和文本处理本身就是一个技术挑战。其次，确保数据集的翻译和调整能够准确反映原始数据集的结构和内容，同时适应乌尔都语的特点，也是一个不容忽视的问题。此外，在信息检索领域，如何有效地对乌尔都语文档进行索引和查询，以及如何评价检索系统的性能，都是当前研究需要解决的挑战。

常用场景

经典使用场景

Bharat_NanoArguAna_ur数据集，作为信息检索领域的重要资源，其经典使用场景主要集中在乌尔都语信息检索系统的开发与评估。该数据集通过提供大量乌尔都语文档和查询，使得研究人员能够构建和测试针对乌尔都语的语言模型，进而优化信息检索系统的性能，提升搜索结果的准确性。

衍生相关工作

基于Bharat_NanoArguAna_ur数据集，研究人员可以开展一系列相关研究，如乌尔都语的自然语言处理、文本分类、情感分析等。此外，该数据集也促进了乌尔都语信息检索技术的国际化发展，衍生了诸多具有影响力的跨语言信息检索研究工作。

数据集最近研究