ELAB
收藏arXiv2025-04-17 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.12553v1
下载链接
链接失效反馈官方服务:
资源简介:
ELAB数据集是由Sharif University of Technology的研究团队创建的,旨在评估波斯语大型语言模型(LLMs)在安全、公平性和社会规范方面的对齐程度。该数据集包括翻译数据、合成生成的新数据和自然收集的新数据,涵盖了有害内容、禁止内容、公平性相关内容和遵守社会规范的内容,为评估波斯语LLMs提供了全面的框架。
The ELAB dataset was created by a research team at Sharif University of Technology, aiming to evaluate the alignment of Persian large language models (LLMs) across safety, fairness, and social norms. The dataset comprises translated data, newly synthetically generated data, and newly naturally collected data, covering harmful content, prohibited content, fairness-related content, and content that complies with social norms, thus providing a comprehensive framework for evaluating Persian LLMs.
提供机构:
Sharif University of Technology
创建时间:
2025-04-17
搜集汇总
数据集介绍

构建方式
ELAB数据集的构建采用了多源融合策略,通过翻译国际主流对齐基准(如Anthropic Red Teaming、AdvBench)、人工生成文化特异性内容(如ProhibiBench-fa)以及自然采集波斯语社交媒体语料(GuardBench-fa)三重路径。翻译环节采用GPT-4o-mini进行初步转换后,通过回译验证和母语者文化适配性评审;生成环节基于Command-R Plus模型构造对抗性样本,并依据波斯文化特有的伦理维度(如'taarof'礼仪)设计11类细粒度有害内容;采集环节则通过NLP技术清洗6,651条本土网络文本,形成具有文化代表性的真实语料库。这种三维构建方法确保了数据集既具备国际可比性,又深度扎根波斯语言文化特性。
特点
该数据集最显著的特点是建立了波斯语领域首个涵盖安全性(如暴力内容识别)、公平性(如方言偏见检测)和社会规范(如'aberoo'文化尊严维护)的三维评估体系。其7,271条样本中包含2,197项安全测试、3,311项公平性分析和1,763项社会规范审查,特别设计了针对波斯语语法性别屈折变化的评估指标。通过t-SNE可视化分析发现,合成数据与翻译数据在嵌入空间呈明显分布差异,证实文化适配生成的必要性。数据集的细粒度分类体系(如将安全风险细分为32个子类)和本土化标注(如'GuardBench-fa'中的波斯特有脏词库),为波斯语大模型提供了超越表层语言适应的深层文化对齐基准。
使用方法
使用该数据集时需采用分层评估框架:首先通过vLLM部署待测模型(建议参数<10B),输入三类标准化提示模板(安全/公平/社会规范);随后采用GPT-4o-mini作为评判模型,基于0-10分量表对输出进行波斯文化适配性评分。评估过程需特别注意性别屈折词处理(如波斯语动词变位隐含的性别偏见)和'taarof'语境理解(如谦让表达的社会规范)。数据集配套的公开排行榜支持跨模型比较,建议结合细粒度分类结果(如ProhibiBench-fa中的11类有害内容拒绝率)进行针对性优化。对于文化敏感项,推荐采用混合评估策略,即自动评分与波斯母语者人工评审相结合。
背景与挑战
背景概述
ELAB(Extensive LLM Alignment Benchmark in Persian Language)是由MCILAB和Sharif University of Technology的研究团队于2025年提出的波斯语大语言模型(LLM)对齐评估基准。该数据集旨在填补波斯语LLM在安全性、公平性和社会规范对齐评估方面的空白,通过整合翻译数据、合成生成数据和自然收集数据,构建了一个全面的评估框架。ELAB不仅翻译了Anthropic Red Teaming、AdvBench、HarmBench和DecodingTrust等国际知名对齐数据集,还针对波斯语特有的文化和语言特点,开发了ProhibiBench-fa、SafeBench-fa、FairBench-fa、SocialBench-fa和GuardBench-fa等新数据集。这一工作为波斯语LLM的伦理对齐提供了首个系统化的评估工具,推动了多语言AI模型的负责任发展。
当前挑战
ELAB数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,波斯语LLM的对齐评估需要解决独特的语言结构(如性别屈折变化)和文化规范(如'taarof'礼仪和'aberoo'社会尊严概念),这些与英语为中心的现有评估框架存在显著差异。构建过程中的挑战包括:1)跨文化适配难题,需确保翻译数据在保留原意的同时符合波斯文化语境;2)合成数据的真实性控制,需平衡对抗性示例的多样性与文化敏感性;3)自然数据的标注一致性,特别是对波斯语特有的冒犯性内容和文化禁忌的准确分类;4)评估指标的整合难度,需协调安全性、公平性与社会规范这三个相互关联又可能冲突的维度。
常用场景
经典使用场景
ELAB数据集在波斯语大型语言模型(LLMs)的伦理对齐评估中具有重要应用。该数据集通过整合翻译数据、合成生成数据以及自然收集数据,构建了一个全面的评估框架,特别关注安全、公平和社会规范三个关键维度。研究者可以利用ELAB对波斯语LLMs进行系统性评估,确保其在输出内容上符合波斯语言文化和伦理标准。例如,通过Anthropic-fa和AdvBench-fa等子集,可以测试模型在避免有害内容、消除偏见以及遵循文化习俗方面的表现。
解决学术问题
ELAB数据集填补了波斯语LLMs在伦理对齐评估领域的空白。传统评估框架如HarmBench和DecodingTrust主要针对英语设计,难以适应波斯语的语法结构(如性别屈折变化)和文化特性(如‘taarof’礼仪)。ELAB通过引入ProhibiBench-fa、SafeBench-fa等子集,解决了波斯语特有的伦理问题,例如方言公平性、性别屈折偏见等。其统一框架还揭示了安全过滤严格性与方言偏见之间的关联,为多语言AI对齐研究提供了方法论参考。
衍生相关工作
ELAB衍生了多项针对非英语LLMs对齐的研究。其翻译方法论启发了阿拉伯语、土耳其语等性别屈折语言的评估框架设计。ProhibiBench-fa采用的越狱(jailbreaking)数据生成技术被拓展至其他高危内容检测场景。此外,ELAB提出的文化锚定评估指标(如‘aberoo’社会尊严)为后续研究如《DecodingTrust》的多语言扩展提供了理论依据。
以上内容由遇见数据集搜集并总结生成



