Amharic Passage Retrieval Dataset

Name: Amharic Passage Retrieval Dataset
Creator: 阿姆斯特丹大学
Published: 2025-05-26 07:06:20
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/rasyosef/amharic-news-retrieval-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Amharic Passage Retrieval Dataset是一个用于信息检索研究的阿姆哈拉语数据集，由阿姆斯特丹大学的研究人员创建。数据集包含50706条新闻文章，分为六个领域：地方新闻、体育、政治、国际新闻、商业和娱乐。该数据集由阿姆哈拉语新闻文本分类数据集（AMNEWS）预处理而来，将文章标题视为查询，文章正文视为段落，从而创建了类似MS MARCO风格的查询-段落对。数据集公开可用，旨在促进低资源信息检索领域的研究。

Amharic Passage Retrieval Dataset is an Amharic-language dataset for information retrieval research, created by researchers from the University of Amsterdam. It contains 50,706 news articles categorized into six domains: local news, sports, politics, international news, business, and entertainment. Derived from the Amharic News Text Classification Dataset (AMNEWS), this dataset constructs query-passage pairs in the style of MS MARCO by treating article titles as queries and article bodies as passages. The dataset is publicly available, aiming to facilitate research in the low-resource information retrieval field.

提供机构：

阿姆斯特丹大学

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

Amharic Passage Retrieval Dataset的构建基于AMNEWS数据集，通过将新闻标题作为查询，对应的新闻正文作为相关段落，构建了类似MS MARCO风格的查询-段落对。数据集包含约45,000对查询-段落，涵盖了本地新闻、体育、政治、国际新闻、商业和娱乐六个领域。为了确保数据质量，研究人员通过MD5哈希去重，并手动验证了查询与段落之间的主题一致性。数据集被划分为训练集和测试集，其中10%用于评估，并按照新闻类别进行分层抽样，以确保各领域的平衡代表。

使用方法

Amharic Passage Retrieval Dataset的使用方法包括训练和评估密集检索模型，如基于BERT和RoBERTa的模型。研究人员可以使用该数据集进行对比学习，通过查询-段落对的相似性评分优化模型性能。评估指标包括MRR@k、NDCG@k和Recall@k，以全面衡量检索效果。此外，数据集还可用于比较稀疏检索（如BM25）与密集检索模型的性能差异，为阿姆哈拉语信息检索研究提供基准。数据集的代码和预处理脚本已在GitHub上公开，便于研究人员复现和扩展研究。

背景与挑战

背景概述

Amharic Passage Retrieval Dataset是由Kidist Amde Mekonnen、Yosef Worku Alemneh和Maarten de Rijke等研究人员于2025年提出的，旨在解决阿姆哈拉语（Amharic）这一低资源、形态丰富的语言在信息检索领域的挑战。阿姆哈拉语是埃塞俄比亚的联邦工作语言，属于闪米特语系，具有复杂的形态结构和独特的Ge'ez文字系统。传统的信息检索方法如TF-IDF和BM25在处理阿姆哈拉语时面临词汇不匹配和语义模糊等问题，而现有的多语言预训练模型由于分词不理想和跨语言迁移效果不佳，也难以有效支持阿姆哈拉语的检索任务。该数据集的提出填补了这一空白，通过基于阿姆哈拉语BERT和RoBERTa的稠密检索模型，显著提升了检索效果，并为低资源语言的信息检索研究提供了重要基准。

当前挑战

构建和使用Amharic Passage Retrieval Dataset面临多方面的挑战。首先，阿姆哈拉语的形态复杂性导致词汇高度变形，传统基于词匹配的检索方法难以捕捉语义关系。其次，低资源特性使得训练数据稀缺，限制了模型的泛化能力。在构建过程中，数据集依赖新闻标题和正文的启发式相关性标注，缺乏人工标注的金标准，可能引入噪声。此外，多语言模型的分词策略对阿姆哈拉语不够友好，常导致过度分割，影响语义表示质量。这些挑战要求开发语言特定的分词器和形态感知的检索方法，以提升低资源语言信息检索的准确性和鲁棒性。

常用场景

经典使用场景

Amharic Passage Retrieval Dataset 作为首个针对阿姆哈拉语（Amharic）的系统性检索基准，其经典使用场景主要集中于神经检索模型的训练与评估。该数据集通过将新闻标题与对应文章构建为查询-段落对，模拟了开放域问答和事实核查等实际检索任务。研究者可利用该数据集评测稀疏检索（如BM25）与稠密检索（如基于BERT的模型）在形态复杂语言中的性能差异，尤其关注词法重叠与语义匹配的权衡。

解决学术问题

该数据集解决了低资源形态丰富语言中信息检索的核心挑战：传统基于词法匹配的方法因阿姆哈拉语的高屈折变化和复杂形态学导致性能受限。通过提供语言特定的稠密检索模型（如RoBERTa-Base-Amharic-Embed），在MRR@10指标上相对多语言基线提升17.6%，验证了语言适配对语义表示的重要性。同时揭示了子词分词质量（如生育率指标）与检索效能的强相关性，为低资源语言建模中的分词优化提供了实证依据。

实际应用

在埃塞俄比亚联邦政府工作语言的实际应用中，该数据集支撑的检索系统可显著改善YouTube等内容平台的阿姆哈拉语查询准确性，减少政策违规内容的误检索。新闻机构可利用其构建更精准的跨领域文档检索系统，而机器翻译领域通过增强检索质量可缓解职业术语的性别偏见问题。该工作尤其适用于需要处理Ge'ez文字音节变体和词根模板形态的政府文档或社交媒体分析场景。

数据集最近研究