Palm

github2025-03-05 更新2025-03-06 收录

下载链接：

https://github.com/UBC-NLP/palm

下载链接

链接失效反馈

官方服务：

资源简介：

Palm数据集为一个全面评估大型语言模型在阿拉伯语言任务上跨不同方言和文化背景表现的综合基准。

The Palm Dataset is a comprehensive benchmark that evaluates the performance of large language models on Arabic language tasks across diverse dialects and cultural contexts.

创建时间：

2025-02-27

原始信息汇总

Palm 数据集概述

数据集简介

Palm 数据集是一个针对阿拉伯语言的大型语言模型（LLM）的性能评估的全面基准，涵盖了多种方言和文化背景。该数据集旨在评估LLM在阿拉伯语言任务上的表现。

数据集获取

数据集可以通过Hugging Face访问： python from datasets import load_dataset dataset = load_dataset("UBC-NLP/palm")

环境要求

Python 3.8+
PyTorch
vLLM
4x A100 GPUs（实验中使用）

安装所需包： bash pip install -r requirements.txt

评估流程

评估流程包括两个主要步骤：

使用LLM生成响应
使用LLM-as-Judge方法判断响应质量

步骤0：启动LLM服务

运行主脚本之前，需要使用vLLM启动LLM服务： bash ./serve_llm.sh "llm_path" num_gpus port

步骤1：生成响应

使用gen_responses.py脚本为测试集中的指令生成响应： bash python gen_responses.py --model_path models/Qwen2.5-7B-Instruct --vllm_model_id models/Qwen2.5-7B-Instruct --data_path data/test.jsonl --max_length 4096 --vllm_port 8000

步骤2：判断响应

使用与步骤0相同的serve_llm.sh脚本启动判断LLM，然后评估生成的响应： bash python judge.py --output_judgements Qwen2.5-7B-Instruct --vllm_model_id models/Qwen2.5-72B-Instruct --preds_file responses/Qwen2.5-7B-Instruct.jsonl --max_length 2048 --vllm_port 8000

示例工作流程

bash

1. 启动响应生成LLM

./serve_llm.sh "models/Qwen2.5-7B-Instruct" 4 8000

2. 生成响应

python gen_responses.py --model_path models/Qwen2.5-7B-Instruct --vllm_model_id models/Qwen2.5-7B-Instruct --data_path data/test.jsonl --max_length 4096 --vllm_port 8000

3. 停止第一个LLM服务器并启动判断LLM

./serve_llm.sh "models/Qwen2.5-72B-Instruct" 4 8000

4. 判断响应

python judge.py --output_judgements Qwen2.5-7B-Instruct --vllm_model_id models/Qwen2.5-72B-Instruct --preds_file responses/Qwen2.5-7B-Instruct.jsonl --max_length 2048 --vllm_port 8000

引用

如果在研究中使用此数据集或代码，请引用以下信息： bibtex @misc{alwajih2025palmculturallyinclusivelinguistically, title={Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs}, author={Fakhraddin Alwajih and Abdellah El Mekki and Samar Mohamed Magdy and Abdelrahim A. Elmadany and Omer Nacar and El Moatez Billah Nagoudi and Reem Abdel-Salam and Hanin Atwany and Youssef Nafea and others}, year={2025}, eprint={2503.00151}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.00151}, }

许可

本项目遵循CC-BY-NC-ND-4.0许可证。

联系方式

如有问题或反馈，请在仓库中提出问题。

搜集汇总

数据集介绍

构建方式

Palm数据集的构建采取了一种全面的方法，旨在涵盖阿拉伯语言的不同方言和文化背景。该数据集的构建基于对阿拉伯语言的大型语言模型（LLMs）进行性能评估的需求，通过收集和整合多样化的语言样本，形成了这一具有文化包容性和语言多样性的评测基准。

特点

Palm数据集的特点在于其文化包容性和语言多样性，这使得它成为一个评估阿拉伯语言LLMs的理想工具。数据集覆盖了多种阿拉伯方言，并涉及不同文化语境，从而为模型提供了一个全面而真实的语言环境。此外，数据集的开放许可（CC-BY-NC-ND 4.0）也促进了学术界的共享与使用。

使用方法

使用Palm数据集首先需要安装必要的Python包，并配置相应的硬件环境。用户可以通过Hugging Face的datasets库来访问数据集。数据集的使用包括两个主要步骤：第一步是使用vLLM服务来生成LLM的响应；第二步是使用LLM作为评判者来评估这些响应的质量。详细的安装和使用指南已在数据集的GitHub仓库中提供。

背景与挑战

背景概述

Palm数据集，全称为'Culturally Inclusive and Linguistically Diverse dataset for Arabic LLMs'，旨在为阿拉伯语言的大型语言模型提供一套全面评估标准。该数据集的创建，源于对阿拉伯语言多样性和文化包容性的考量，由UBC-NLP团队于2025年开发。它涵盖了多个方言和文化背景，为评估大型语言模型在阿拉伯语言任务上的表现提供了重要基准。Palm数据集的构建，对于推动阿拉伯语言自然语言处理领域的研究具有重要意义，其研究成果已在学术界引起了广泛关注。

当前挑战

在研究领域问题上，Palm数据集面临的挑战主要包括如何准确评估模型在不同阿拉伯方言和文化背景下的表现。此外，在构建过程中，数据集的创建者遇到了如何保证数据的文化包容性和语言多样性，以及如何确保评估流程的有效性和公正性等问题。这些挑战不仅考验着数据集构建的技术水平，也对其在学术界的应用和推广提出了更高的要求。

常用场景

经典使用场景

在机器学习与自然语言处理领域，Palm数据集以其文化包容性和语言多样性成为评估阿拉伯语言大型语言模型性能的重要基准。该数据集的经典使用场景在于，通过其提供的测试集，研究者能够对语言模型在不同方言和文化背景下的表现进行综合评价，进而优化模型的泛化能力和文化适应性。

解决学术问题

Palm数据集解决了阿拉伯语言模型评价中存在的文化偏见和方言局限性问题。它提供了一个多元化的评价标准，有助于学术界识别并克服现有模型在处理阿拉伯语时可能遭遇的多样性和包容性挑战，对于推动构建无偏见、高准确度的语言模型具有重要的学术意义。

衍生相关工作

基于Palm数据集，研究者已经开展了一系列相关工作，包括但不限于对阿拉伯语言模型的微调、评估方法的改进以及跨文化语言理解的深入研究。这些衍生工作不仅丰富了阿拉伯语处理领域的学术研究，也为相关技术的商业应用提供了理论基础和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集