silma-rag-qa-benchmark-v1.0

Hugging Face2024-12-15 更新2024-12-16 收录

下载链接：

https://huggingface.co/datasets/silma-ai/silma-rag-qa-benchmark-v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

SILMA RAGQA Benchmark v1.0是一个用于评估阿拉伯语语言模型在抽取式问答任务中效果的数据集和基准测试。该基准测试包含17个双语数据集，涵盖了多个领域，如法律、医学、金融和生物学。数据集的规模在1K到10K之间。该基准测试主要评估模型的阿拉伯语和英语问答能力、处理短长上下文的能力、提供短长答案的能力、回答复杂数值问题的能力、基于表格数据的问答能力、多跳问答能力、负面拒绝能力、多领域问答能力以及对噪声和模糊上下文的鲁棒性。数据集的来源包括多个公开数据集，如xquad_r、covidqa、emanual等，部分数据集通过Google Translate从英语翻译成阿拉伯语。

创建时间：

2024-12-03

原始信息汇总

SILMA RAGQA Benchmark Dataset V1.0

概述

SILMA RAGQA 是一个用于评估阿拉伯语语言模型在抽取式问答任务中效果的数据集和基准测试，特别强调了RAG（Retrieval-Augmented Generation）应用。该基准测试包含17个双语数据集，涵盖阿拉伯语和英语，涉及多个领域。

数据集特性

任务类别: 问答、表格问答
语言: 阿拉伯语、英语
标签: 法律、医学、金融、生物学
数据集大小: 1K<n<10K

测试能力

通用阿拉伯语和英语问答能力
处理短上下文和长上下文的能力
提供短答案和长答案的能力
回答复杂数值问题的能力
基于表格数据的问答能力
多跳问答：使用多个段落中的数据回答一个问题的能力
负拒绝：识别并拒绝不准确响应的能力
多领域：基于不同领域文本的问答能力
噪声鲁棒性：处理噪声和模糊上下文的能力

数据来源

名称	语言	大小（采样）	链接	论文
xquad_r	en	100	https://huggingface.co/datasets/google-research-datasets/xquad_r/viewer/en	https://arxiv.org/pdf/2004.05484
xquad_r	ar	100	https://huggingface.co/datasets/google-research-datasets/xquad_r/viewer/ar	https://arxiv.org/pdf/2004.05484
rag_instruct_benchmark_tester	en	100	https://huggingface.co/datasets/llmware/rag_instruct_benchmark_tester	https://medium.com/@darrenoberst/how-accurate-is-rag-8f0706281fd9
covidqa	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/covidqa/test	https://arxiv.org/abs/2407.11005
covidqa	ar	50	从covidqa_en使用Google Translate翻译	https://arxiv.org/abs/2407.11005
emanual	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/emanual/test	https://arxiv.org/abs/2407.11005
emanual	ar	50	从emanual_en使用Google Translate翻译	https://arxiv.org/abs/2407.11005
msmarco	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/msmarco/test	https://arxiv.org/abs/2407.11005
msmarco	ar	50	从msmarco_en使用Google Translate翻译	https://arxiv.org/abs/2407.11005
hotpotqa	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/hotpotqa/test	https://arxiv.org/abs/2407.11005
expertqa	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/expertqa/test	https://arxiv.org/abs/2407.11005
finqa	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/finqa/test	https://arxiv.org/abs/2407.11005
finqa	ar	50	从finqa_en使用Google Translate翻译	https://arxiv.org/abs/2407.11005
tatqa	en	50	https://huggingface.co/datasets/rungalileo/ragbench/viewer/tatqa/test	https://arxiv.org/abs/2407.11005
tatqa	ar	50	从tatqa_en使用Google Translate翻译	https://arxiv.org/abs/2407.11005
boolq	ar	100	https://huggingface.co/datasets/Hennara/boolq_ar	https://arxiv.org/pdf/1905.10044
sciq	ar	100	https://huggingface.co/datasets/Hennara/sciq_ar	https://arxiv.org/pdf/1707.06209

评估方法

可以通过运行以下脚本来评估任何模型：

更改代码中的模型名称。
安装依赖项。
运行脚本。

评估指标

基准测试使用多种指标来评估性能，包括Exact Match、BLEU、ROUGE和BERTScore。

评估结果

模型名称	基准测试分数
SILMA-9B-Instruct-v1.0	0.268
Gemma-2-2b-it	0.281
Qwen2.5-3B-Instruct	0.3
Phi-3.5-mini-instruct	0.301
Gemma-2-9b-it	0.304
Phi-3-mini-128k-instruct	0.306
Llama-3.2-3B-Instruct	0.318
Qwen2.5-7B-Instruct	0.321
Llama-3.1-8B-Instruct	0.328
c4ai-command-r7b-12-2024	0.330
SILMA-Kashif-2B-v0.1	0.357

未来工作

扩展到更多领域，如法律
添加数据集以测试提示敏感性（处理复杂提示）
添加更多数据集

反馈

欢迎通过创建讨论或发送电子邮件至hello@silma.ai提供反馈。

搜集汇总

数据集介绍

构建方式

SILMA RAGQA Benchmark v1.0数据集的构建基于17个双语数据集，涵盖阿拉伯语和英语，涉及多个领域如法律、医疗、金融和生物学。这些数据集包括从xquad_r、covidqa、emanual、msmarco、hotpotqa、expertqa、finqa、tatqa、boolq和sciq等来源中提取的样本。部分阿拉伯语数据集通过Google Translate从对应的英语数据集翻译而来，确保了双语数据的多样性和广泛性。

使用方法

使用SILMA RAGQA Benchmark v1.0数据集进行模型评估时，用户需先安装相关依赖，然后通过提供的脚本加载数据集和模型进行评估。评估过程中，模型将根据数据集中的问题生成答案，并与参考答案进行对比，使用多种指标如Exact Match、BLEU、ROUGE和BERTScore来衡量模型的性能。最终，用户可以获得模型在不同数据集上的表现评分，从而全面了解模型的问答能力。

背景与挑战

背景概述

SILMA RAGQA Benchmark v1.0数据集由SILMA AI团队创建，旨在评估阿拉伯语语言模型在提取式问答任务中的有效性，特别是针对RAG（Retrieval-Augmented Generation）应用。该数据集包含17个双语数据集，涵盖法律、医疗、金融和生物学等多个领域，旨在全面测试模型的多领域问答能力。SILMA RAGQA Benchmark v1.0的发布标志着阿拉伯语自然语言处理领域的一个重要里程碑，预计将在2025年初评估并发布新的SILMA Kashif模型，进一步推动该领域的技术进步。

当前挑战

SILMA RAGQA Benchmark v1.0数据集面临多方面的挑战。首先，该数据集需要处理多领域的问答任务，涵盖法律、医疗、金融等复杂领域，这对模型的领域适应性和知识广度提出了高要求。其次，数据集中的双语特性要求模型在阿拉伯语和英语之间进行无缝切换，增加了语言处理的复杂性。此外，数据集构建过程中，部分数据通过Google Translate进行翻译，可能引入翻译误差，影响数据质量。最后，该数据集还需应对噪声和模糊上下文的挑战，确保模型在复杂环境下的鲁棒性。

常用场景

经典使用场景

SILMA RAGQA Benchmark v1.0 数据集主要用于评估阿拉伯语和英语语言模型在提取式问答任务中的表现，特别是在RAG（Retrieval-Augmented Generation）应用中的效果。该数据集涵盖了多个领域，如法律、医疗、金融和生物学，能够测试模型在处理短文本和长文本、提供简短和详细答案、回答复杂数值问题以及基于表格数据进行问答的能力。此外，它还支持多跳问答和噪声鲁棒性测试，确保模型在不同复杂度和噪声环境下的稳定性。

解决学术问题

SILMA RAGQA Benchmark v1.0 数据集解决了多语言问答系统在复杂语境下的性能评估问题。通过提供多领域、多语言的问答数据，该数据集帮助研究者评估模型在不同领域和语言环境下的表现，特别是在处理复杂问题和多跳问答时的能力。这不仅推动了多语言问答技术的发展，还为跨语言信息检索和生成模型提供了重要的基准测试工具。

实际应用

SILMA RAGQA Benchmark v1.0 数据集在实际应用中具有广泛的应用前景，特别是在需要多语言支持的行业，如法律、医疗和金融领域。通过该数据集的评估，企业可以开发出更高效的多语言问答系统，提升客户服务质量和信息检索效率。此外，该数据集还可用于训练和优化面向特定领域的智能助手，帮助用户快速获取准确信息，提升用户体验。

数据集最近研究