QADSM-Nepali

Hugging Face2025-06-23 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/IRIIS-RESEARCH/QADSM-Nepali

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用户查询语句、广告标题、广告描述和广告与查询的相关性标签。数据集分为训练集和测试集，可用于广告相关性评估任务。

创建时间：

2025-06-23

搜集汇总

数据集介绍

构建方式

QADSM-Nepali数据集的构建过程体现了对尼泊尔语信息检索系统的深度优化需求。该数据集通过系统化采集尼泊尔语搜索查询与广告内容，构建了包含59,427条训练样本和14,859条测试样本的平行语料。每条数据记录由查询词、广告标题、广告描述及人工标注的相关性标签组成，其中相关性标签采用数值化评分体系，为后续的机器学习模型训练提供了精准的监督信号。数据采集过程严格遵循信息检索领域的标准流程，确保了样本的多样性和代表性。

特点

该数据集最显著的特征在于其专注于低资源语言场景，填补了尼泊尔语广告搜索相关性评估的数据空白。数据样本包含完整的广告信息单元，包括标题和描述文本，为多维度相关性建模创造了条件。数值化的相关性标签体系支持回归和分类两种任务范式，59K级别的数据规模为深度学习模型提供了充足的训练基础。数据划分采用标准的训练集-测试集分离策略，测试集占比20%，符合机器学习领域的基准评估要求。

使用方法

使用该数据集时，建议采用交叉验证策略充分挖掘训练集潜力。典型应用场景包括构建尼泊尔语搜索广告推荐系统，通过联合建模查询-广告标题和查询-广告描述的双重相关性。预处理阶段需注意处理尼泊尔语特有的文字编码和分词问题，建模时可借鉴多语言BERT等预训练技术的迁移学习方法。评估指标推荐采用NDCG或MRR等信息检索领域标准指标，测试集应严格保留用于最终模型性能验证。

背景与挑战

背景概述

QADSM-Nepali数据集是专为尼泊尔语广告搜索匹配任务而构建的语料库，由国际研究团队于近年开发完成，旨在解决低资源语言在信息检索领域的应用难题。该数据集聚焦于查询-广告相关性标注任务，包含近6万组经过人工标注的查询-广告对，通过精细设计的relevance_label体系量化语义匹配程度。其构建填补了南亚语言在搜索算法评测资源上的空白，为跨语言信息检索模型的迁移学习提供了重要基准。

当前挑战

该数据集面临的领域挑战在于尼泊尔语复杂的形态变化和稀缺的预训练资源，导致传统语义匹配模型难以捕捉细粒度语义关联。构建过程中需克服低资源语言标注成本高昂的问题，包括专业标注人员稀缺、方言变体处理困难等。数据分布方面，广告文本的领域偏移和查询表达的多样性，对模型泛化能力提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，QADSM-Nepali数据集为尼泊尔语广告检索任务提供了标准化的评估基准。该数据集通过精心构建的查询-广告对，支持研究者训练和测试跨模态匹配模型，特别适用于低资源语言环境下的语义相关性研究。其标注体系为衡量模型对尼泊尔语语义理解的精确度提供了可靠依据。

衍生相关工作

该数据集已催生多项尼泊尔语NLP重要研究，包括基于BERT的跨语言广告匹配框架NepAds、结合注意力机制的语义排序模型QANep等。相关成果被拓展至孟加拉语、僧伽罗语等南亚语系研究，形成了小语种信息检索的系列方法论突破。

数据集最近研究