amharic-passage-retrieval-dataset

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/rasyosef/amharic-passage-retrieval-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是针对段落检索任务进行过滤、去重和格式化的阿姆哈拉语新闻分类数据集的一个版本。可以直接用于训练阿姆哈拉语嵌入模型，并与Sentence Transformers配合使用。

创建时间：

2025-05-20

原始信息汇总

Amharic Passage Retrieval Dataset 数据集概述

数据集基本信息

许可证: CC-BY-4.0
语言: 阿姆哈拉语 (am)
数据规模: 10K < n < 100K
任务类别: 句子相似度
下载大小: 76,505,983 字节
数据集大小: 165,304,734 字节

数据集结构

特征:
- query_id: 字符串类型
- passage_id: 字符串类型
- query: 字符串类型
- passage: 字符串类型
- category: 字符串类型
- link: 字符串类型
数据划分:
- train: 44,708 个样本，165,304,734 字节

数据来源与用途

来源数据集: amharic-news-category-classification
用途: 可直接与 Sentence Transformers 结合使用，用于训练阿姆哈拉语嵌入模型

引用文献

Mekonnen 等人 (2025):
bibtex @inproceedings{mekonnen2025amharic, title={Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval}, author={Kidist Amde Mekonnen, Yosef Worku Alemneh, Maarten de Rijke}, booktitle={Findings of ACL}, year={2025} }
Azime 和 Mohammed (2021):
bibtex @misc{https://doi.org/10.48550/arxiv.2103.05639, doi = {10.48550/ARXIV.2103.05639}, url = {https://arxiv.org/abs/2103.05639}, author = {Azime, Israel Abebe and Mohammed, Nebil}, title = {An Amharic News Text classification Dataset}, publisher = {arXiv}, year = {2021} }

搜集汇总

数据集介绍

构建方式

该数据集源自Amharic新闻分类数据集，经过精心筛选、去重和格式化处理，专门适配段落检索任务。构建过程中保留了原始数据的查询-段落对结构，并新增了类别标签和来源链接字段，通过严格的预处理流程确保数据质量与一致性。其构建方法体现了对低资源语言信息检索需求的针对性设计，为阿姆哈拉语文本嵌入模型训练提供了标准化基准。

特点

作为阿姆哈拉语领域首个公开的段落检索数据集，其包含44,708个训练样本，涵盖多样化的新闻类别。每个样本包含完整的查询ID、段落ID、原始文本及分类标签，数据结构设计兼顾检索任务需求与元信息完整性。特别值得注意的是，该数据集与ACL 2025研究成果深度关联，为评估阿姆哈拉语嵌入模型性能提供了权威基准。

使用方法

该数据集可直接与Sentence Transformers框架集成，用于训练阿姆哈拉语文本嵌入模型。使用时应遵循标准检索任务流程，将查询-段落对输入双编码器架构进行对比学习。研究人员可参考配套发布的ColBERT检索模型和开源代码库，通过微调预训练模型或端到端训练实现最佳检索效果。数据集采用CC-BY-4.0许可，支持学术和商业用途的灵活应用。

背景与挑战

背景概述

Amharic Passage Retrieval Dataset是一个专门为阿姆哈拉语（Amharic）设计的段落检索数据集，由Kidist Amde Mekonnen、Yosef Worku Alemneh和Maarten de Rijke等研究人员在2025年ACL Findings论文中提出。该数据集基于先前发布的amharic-news-category-classification数据集，经过过滤、去重和重新格式化，以适应段落检索任务的需求。阿姆哈拉语作为埃塞俄比亚的官方语言，其自然语言处理资源相对稀缺，该数据集的发布填补了这一领域的空白，为阿姆哈拉语的信息检索和文本嵌入模型训练提供了重要支持。数据集的应用包括训练Sentence Transformers模型，以及优化阿姆哈拉语的文本嵌入和检索性能。

当前挑战

该数据集面临的挑战主要体现在两个方面：首先，阿姆哈拉语作为低资源语言，其文本数据的稀缺性和多样性不足，导致模型训练时难以覆盖广泛的语义和语境。其次，数据集的构建过程中需要解决原始数据的噪声和冗余问题，包括文本的过滤和去重，以确保数据质量。此外，段落检索任务本身对语义理解和上下文关联的要求较高，如何在低资源语言中实现高效的检索性能，是研究中的核心难点。这些挑战需要通过优化文本嵌入模型和设计针对性的检索算法来逐步克服。

常用场景

经典使用场景

在自然语言处理领域，Amharic Passage Retrieval Dataset为阿姆哈拉语文本检索任务提供了标准化基准。该数据集经过精心过滤和去重处理，特别适合用于训练句子嵌入模型，支持跨文档的语义相似度计算。研究人员可直接将其输入Sentence Transformers框架，构建针对阿姆哈拉语的高效检索系统，填补了低资源语言在信息检索领域的空白。

解决学术问题

该数据集有效解决了阿姆哈拉语信息检索中的关键挑战，包括语义表示学习中的语言特异性问题。通过提供高质量的查询-段落对，支持了跨领域文档检索、语义匹配等核心研究课题。其标准化标注体系为评估检索模型性能提供了可靠依据，推动了低资源语言处理领域的算法创新和基准测试工作。

衍生相关工作

该数据集催生了多项重要研究成果，包括ACL 2025发表的阿姆哈拉语嵌入模型优化框架。衍生的ColBERT交互式检索模型和文本嵌入基准测试系统，已成为该领域的代表性工作。相关技术方案通过HuggingFace模型库开源，持续推动着非洲语言处理社区的技术共享与协作创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集