FarsEval-PKBETS

Name: FarsEval-PKBETS
Creator: NLP Lab, Faculty of Computer Science and Engineering, Shahid Beheshti University, Tehran, Iran
Published: 2025-04-21 01:43:47
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

http://arxiv.org/abs/2504.14690v1

下载链接

链接失效反馈

官方服务：

资源简介：

FarsEval-PKBETS数据集是FarsEval项目的一个子集，专为评估波斯语大型语言模型而设计。该数据集包含4000个问题与答案，涵盖多种格式，包括选择题、简答题和描述性问题。内容涉及医学、法律、宗教、波斯语、百科知识、人类偏好、社会知识、伦理偏见、文本生成以及尊重他人权利等多个领域。数据集在创建问题时考虑了与波斯语和伊朗相关的语言、文化和地方特色，旨在为评估和比较语言模型提供一个 robust 平台。

The FarsEval-PKBETS dataset is a subset of the FarsEval project, specifically tailored for evaluating Persian large language models. It contains 4,000 question-answer pairs spanning multiple formats, including multiple-choice questions, short-answer questions, and descriptive questions. The dataset covers a wide range of domains such as medicine, law, religion, Persian language, encyclopedic knowledge, human preferences, social knowledge, ethical biases, text generation, and respecting others' rights. When constructing the questions, due attention has been paid to the linguistic, cultural, and local characteristics relevant to the Persian language and Iran, aiming to provide a robust platform for evaluating and benchmarking language models.

提供机构：

NLP Lab, Faculty of Computer Science and Engineering, Shahid Beheshti University, Tehran, Iran

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

FarsEval-PKBETS数据集的构建过程体现了高度的专业性和系统性。研究团队通过Saba标注平台实现了多阶段协作，包括问题生成、专家审核和迭代修订。数据来源涵盖医学考试题目、法律条文、宗教文献等权威内容，同时结合人工创作确保多样性。特别值得注意的是，团队采用了链式思维(CoT)方法设计部分问题，并针对波斯语的语言特点和文化背景进行了定制化处理。每个数据记录均包含丰富的元数据，如参考来源、标签等，且所有内容均经过至少两名主审人员的质量把控。

使用方法

使用FarsEval-PKBETS进行评估时，研究者可通过其标准化接口获取问题并提交模型答案。平台支持自动评估和人工评估两种模式，特别对于开放式问题建议结合两者。使用前应充分了解各领域的评估标准，例如医学领域的专业术语要求、法律条文的精确性等。对于生成类任务，需特别注意波斯语特有的文体规范和表达习惯。数据集提供的元数据可辅助进行细粒度分析，如通过'Label'字段识别特定子领域表现。建议同时使用自动评分和人工评判，尤其是对模型生成的解释性内容需要进行语义一致性检查。

背景与挑战

背景概述

FarsEval-PKBETS是由伊朗沙希德·贝赫什提大学NLP实验室于2024年推出的波斯语大语言模型评估基准，作为FarsEval项目的子集。该数据集包含4000个涵盖医学、法律、宗教等10个领域的多样化问题，采用多选题、简答题和描述题三种形式，特别注重融入波斯语言特性和伊朗文化背景。研究团队由Mehrnoush Shamsfard教授领衔，通过自主开发的Saba标注平台实现多人协作的数据生成与审核流程。该基准的建立填补了波斯语NLP领域缺乏综合性评估工具的空白，其设计理念强调领域多样性、问题复杂性和文化适配性，对Llama3-70B等先进模型的测试显示平均准确率不足50%，证实了其在评估波斯语模型性能方面的有效性。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决波斯语LLM评估中存在的文化适配性不足、题型单一（过度依赖选择题）以及自动评估方法无法捕捉模型推理过程等核心问题；在构建过程中，团队需克服专业领域知识标注（如医学、法律问题）、多风格文本生成验证、文化特定表达处理等难题。特别在数据质量控制方面，通过Saba平台实现的多轮专家评审机制，有效解决了LLM生成数据存在的幻觉问题、主观题型标注一致性等挑战，最终确保数据集的科学性和代表性。

常用场景

经典使用场景

FarsEval-PKBETS 数据集作为波斯语大语言模型评估的基准，广泛应用于自然语言处理领域的研究中。其多样化的题目类型和丰富的领域覆盖使其成为评估模型在波斯语环境下性能的黄金标准。研究人员利用该数据集测试模型在医学、法律、宗教等专业领域的理解能力，以及在语法、隐喻等语言现象上的表现。特别是在评估模型对波斯文化、本地知识的掌握程度方面，该数据集展现了独特价值。

解决学术问题

该数据集有效解决了波斯语大语言模型评估中缺乏全面基准的关键问题。通过涵盖12个主要领域和30多个子类别，它填补了波斯语模型在多领域、多任务评估上的空白。其精心设计的问题类型不仅测试模型的知识储备，更考察其推理能力、文化适应性和伦理判断。数据集特别关注模型在波斯语特有语言现象（如诗歌、谚语）和伊朗本土文化背景下的表现，为研究者提供了系统评估模型局限性的工具。

实际应用

在实际应用层面，FarsEval-PKBETS 为波斯语智能系统开发提供了重要参考。医疗领域可利用其医学题目评估临床问答系统的可靠性；法律科技公司可测试模型对伊朗宪法的理解程度；教育科技领域则能验证模型在波斯语教学辅助中的适用性。该数据集特别适用于需要文化敏感性的应用场景，如社交媒体内容审核、客户服务聊天机器人等，确保AI系统符合当地语言习惯和社会规范。

数据集最近研究