ParsiEval
收藏github2025-08-06 更新2025-08-07 收录
下载链接:
https://github.com/mshojaei77/ParsiEval
下载链接
链接失效反馈官方服务:
资源简介:
ParsiEval数据集包含364个多项选择题,涵盖科学、历史、文学和常识等多个主题,旨在测试模型在波斯语中的理解、事实回忆和逻辑推理能力。
The ParsiEval dataset consists of 364 multiple-choice questions spanning a variety of subjects including science, history, literature, and common knowledge, designed to assess models' understanding, factual recall, and logical reasoning capabilities in Persian.
创建时间:
2025-08-06
原始信息汇总
ParsiEval 数据集概述
数据集简介
- 名称: ParsiEval
- 目的: 评估大型语言模型(LLMs)在波斯语任务中的表现
- 特点: 标准化且具有挑战性的波斯语理解和推理测试平台
数据集内容
- 问题数量: 364道多选题
- 题目类型: 涵盖科学、历史、文学和常识等多个领域
- 测试能力: 模型对波斯语上下文理解、事实回忆和逻辑推理能力
目标与动机
- 填补波斯语高质量基准测试的空白
- 主要用途:
- 追踪波斯语模型进展
- 识别不同模型架构的优缺点
- 推动波斯语技术研发
评估结果
API基础模型
| 模型名称 | 准确率 | 平均延迟 | 推理能力 | 参数量 |
|---|---|---|---|---|
| gpt-4o | 79.12% | 0.90s (OpenAI) | 否 | ~200B |
| horizon-beta | 77.75% | 1.98s (OpenRouter) | 是 | ~120B |
| kimi-k2-instruct | 77.20% | 1.37s (Groq) | 否 | 1T |
| llama-4-maverick-17b-128e-instruct | 75.27% | 1.79s (Cerebras) | 否 | 402B |
| deepseek-v3-0324 | 74.73% | 2.72s (OpenRouter) | 否 | 685B |
| llama-3.3-70b | 73.35% | 1.75s (Cerebras) | 否 | 70B |
| llama-4-scout-17b-16e-instruct | 71.43% | 0.68s (Cerebras) | 否 | 108B |
| qwen-3-235b-a22b-instruct-2507 | 70.60% | 0.70s (Cerebras) | 否 | 235B |
| openai/gpt-oss-120b | 70.05% | 2.84s (Groq) | 是 | 120B |
| google/gemma-3-27b-it | 67.03% | 1.13s (OpenRouter) | 否 | 27B |
边缘设备模型(<4B)
| 模型名称 | 准确率 | 平均延迟 | 推理能力 | 参数量 |
|---|---|---|---|---|
| gemma-3-4b-persian | 43.96% | 0.21s | 否 | 4B |
| gemma3:4b | 43.13% | 0.13s | 否 | 4B |
| qwen3:4b (non-thinking) | 40.93% | 0.40s | 否 | 4B |
| llama3.2:3b | 34.34% | 0.13s | 否 | 3B |
| qwen2.5:1.5b | 32.14% | 0.07s | 否 | 1.5B |
分析维度
-
准确率分析
- 顶级模型表现
- 边缘设备模型表现
-
准确率与延迟关系
- 顶级模型权衡
- 边缘设备模型平衡
-
准确率与参数量关系
- 顶级模型规模与性能
- 边缘设备模型性能扩展
搜集汇总
数据集介绍

构建方式
ParsiEval数据集的构建立足于波斯语自然语言处理领域的迫切需求,采用精心设计的多选题形式构建评估基准。研究团队从科学、历史、文学和常识四大知识领域系统性地筛选了364道具有代表性的题目,每道题目均经过语言学专家校验,确保其能有效评估模型在波斯语语境下的理解能力、事实记忆和逻辑推理等核心认知维度。题目设计注重知识覆盖的广度和深度平衡,同时严格控制文化偏见和领域倾斜问题。
特点
该数据集最显著的特征在于其针对波斯语特性的专业化设计,填补了非英语NLP评估工具的空白。题目设置具有鲜明的层次性,既包含基础语言理解任务,也涉及复杂的跨领域推理挑战。评估指标设计科学完备,不仅提供准确率等传统度量,还创新性地纳入了延迟时间与模型参数量化的多维分析框架。数据集特别区分了API大模型与边缘设备轻量级模型的性能对比,为不同应用场景下的模型选型提供了精准的参照系。
使用方法
研究人员可通过GitHub获取完整的评估套件,其中包含标准化的问题集、标准答案及评分脚本。使用流程支持两种主流评估模式:对于云端API模型,提供标准化接口封装实现自动化测试;针对本地部署的轻量级模型,配套的Ollama工具链可实现低资源消耗的快速评测。评估结果自动生成多维可视化图表,包括准确率-延迟关系图、参数量-性能曲线等专业分析视图,支持研究者进行深入的模型能力诊断和比较研究。
背景与挑战
背景概述
ParsiEval作为一个专注于波斯语理解的基准测试数据集,由研究团队于近期推出,旨在填补波斯语在大型语言模型评估领域的空白。该数据集包含364道涵盖科学、历史、文学及常识等多领域的多选题,通过系统性设计检验模型在波斯语语境下的理解、推理及事实检索能力。其创建动机源于多语言自然语言处理领域对非英语基准的迫切需求,为追踪波斯语模型的演进轨迹、剖析不同架构的优劣提供了标准化工具,对推动波斯语语言技术发展具有重要学术价值。
当前挑战
构建ParsiEval面临双重挑战:在领域问题层面,波斯语复杂的形态结构和稀缺的高质量语料导致模型难以捕捉语言细微差异,现有最高准确率仅79.12%反映出语义理解深度不足;在数据集构建层面,需平衡题目难度与领域覆盖度,确保评估结果能真实反映模型的语言掌握程度,同时克服波斯语标注资源匮乏的问题。边缘设备模型的显著性能衰减(最佳准确率43.96%)进一步凸显了轻量化与多语言能力协同优化的技术瓶颈。
常用场景
经典使用场景
在波斯语自然语言处理领域,ParsiEval数据集作为一项标准化评估工具,被广泛用于测试大型语言模型在波斯语理解与推理任务中的表现。该数据集通过涵盖科学、历史、文学及常识等多领域的364道多选题,系统性地评估模型在语境理解、事实检索和逻辑推断方面的能力,为研究者提供了全面衡量模型性能的基准平台。
实际应用
该数据集的实际价值体现在波斯语智能助手的开发、教育领域的自动答题系统构建等场景。通过ParsiEval优化的模型能更准确地处理波斯语用户的复杂查询,在伊朗、阿富汗等波斯语地区的金融、医疗等行业数字化进程中,显著提升了人机交互的语义理解精度与响应效率。
衍生相关工作
基于ParsiEval的评估结果,学术界衍生出PersianLLM系列模型的优化研究,以及针对波斯语特性的注意力机制改进方案。相关成果被拓展至乌尔都语、阿拉伯语等相似语系的评估框架构建中,形成了多篇ACL、EMNLP等顶会论文,推动了中东地区语言技术的协同发展。
以上内容由遇见数据集搜集并总结生成



