lsr-anchoring-phase2-results

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/Faruna01/lsr-anchoring-phase2-results

下载链接

链接失效反馈

官方服务：

资源简介：

LSR-Anchoring Phase 2 & 2b数据集包含了跨语言拒绝转向实验的完整结果，旨在测试基于约鲁巴语（Yoruba）衍生的SAE转向向量在非洲语言和阿拉伯语中的转移效果。数据集涵盖了5种非洲语言（约鲁巴语、豪萨语、伊博语、伊加拉语和斯瓦希里语）以及阿拉伯语的实验结果。实验使用meta-llama/Meta-Llama-3-8B-Instruct模型和EleutherAI/sae-llama-3-8b-32x SAE，通过调整转向强度（α）来评估拒绝率恢复效果（SRR）和KL散度。关键发现包括：1）在4种非洲语言中实现了正向跨语言转移；2）基线拒绝率与转向效果相关；3）阿拉伯语中出现反向转移效应；4）α=6为中等资源语言的最佳转向强度。数据集包含多个JSON和CSV文件，记录了详细的实验结果和实验日志。

创建时间：

2026-04-12

搜集汇总

数据集介绍

构建方式

在低资源自然语言处理与人工智能安全交叉领域，该数据集通过严谨的实验设计构建而成。研究团队以Meta-Llama-3-8B-Instruct模型为基础，结合EleutherAI稀疏自编码器提取的特定特征向量，对多种非洲语言及阿拉伯语进行了系统性测试。数据采集过程严格遵循控制变量原则，针对每种语言设置了包含有害与良性提示词的标准化语料，并在不同强度参数α下进行定向干预，以精确测量模型拒绝行为的动态变化。整个构建流程确保了实验的可复现性与结果的可靠性。

特点

该数据集的核心特征在于其揭示了跨语言安全机制的复杂性与非对称性。数据清晰地展示了基于约鲁巴语衍生的单一拒绝特征向量，在豪萨语、伊博语、伊加拉语和斯瓦希里语中均能有效纠正模型的安全漂移，表现出积极的跨语言迁移效应。然而，在阿拉伯语中却观察到了逆向迁移现象，同一向量反而加剧了模型的过度拒绝行为。这一特征突显了模型内部安全表征在不同语言家族间的几何结构差异，为理解大语言模型的多语言安全边界提供了关键实证。

使用方法

研究人员可利用该数据集深入探究大语言模型在多语言环境下的安全鲁棒性。具体而言，数据集中的完整提示记录与参数化结果允许用户分析不同干预强度对模型拒绝率与生成流畅性的权衡关系。通过对比各语言在最优α值下的安全恢复率与KL散度，可以评估特定安全干预策略的泛化能力与潜在风险。此外，数据集中包含的扩展测试结果，为验证发现的可重复性及探索模型在高低资源语言间的行为差异提供了直接依据。

背景与挑战

背景概述

在人工智能安全与机械可解释性研究领域，多语言大模型的安全对齐行为，特别是在低资源语言中的表现，构成了一个关键的科学问题。LSR-Anchoring Phase 2 & 2b 数据集由研究人员Godwin, Faruna于2026年发布，其核心研究聚焦于通过稀疏自编码器（SAE）导出的转向向量，来缓解大型语言模型在非洲语言及阿拉伯语中出现的‘拒绝质心漂移’现象。该研究基于Meta-Llama-3-8B-Instruct模型，旨在探索单一约鲁巴语衍生的安全特征是否能够跨语言、跨语系地调控模型对有害指令的拒绝行为，从而提升模型在低资源语言环境下的安全鲁棒性，为多语言AI安全机制的泛化能力提供了重要的实证基础。

当前挑战

该数据集致力于解决多语言AI安全中‘拒绝行为不一致性’的挑战，具体表现为模型在不同语言中对于有害指令的拒绝率存在显著差异，即‘拒绝质心漂移’。构建过程中的挑战包括：首先，需要精确识别并提取能够表征拒绝行为的稀疏特征向量，其跨语言迁移的有效性需在类型学多样的语言（如尼日尔-刚果、亚非、班图语系）上进行严格验证；其次，实验设计需克服低资源语言提示数据稀缺、文化语境校准困难，以及在高拒绝率语言（如阿拉伯语）中观察到的‘逆向迁移’现象——即同一转向向量反而加剧了过度拒绝行为，这揭示了安全几何结构在不同语言中的复杂差异。

常用场景

经典使用场景

在低资源语言安全性与可解释性研究领域，该数据集为评估跨语言拒绝行为调控提供了经典范例。通过利用稀疏自编码器（SAE）导出的转向向量，研究者能够在多种非洲语言及阿拉伯语中，系统测试单一约鲁巴语衍生的拒绝特征向量对模型安全响应的影响。该场景典型地应用于探索大语言模型在低资源语言环境下的安全机制泛化能力，尤其关注模型在面对有害指令时，其内部表征的跨语言迁移特性与调控效果。

实际应用

在实际应用层面，该数据集所验证的转向向量技术可直接应用于多语言AI系统的安全增强。例如，在部署服务于非洲多语言社区的内容审核或对话系统时，可利用此类方法针对性调整模型对有害请求的拒绝倾向，平衡安全性与实用性。此外，研究揭示的基线拒绝率与可调控性之间的关联，为预测和优化模型在特定语言上的安全行为提供了实用指标，助力开发更公平、更可靠的多语言AI产品。

衍生相关工作

该数据集衍生的经典工作主要围绕跨语言机制可解释性与AI安全对齐展开。例如，基于其发现的逆向转移效应，后续研究可深入探究不同语言在模型内部表征空间中的几何关系，以及安全特征的方向一致性。同时，该工作推动了针对低资源语言的特异性SAE训练与特征发现方法的发展，并激励了更广泛的、面向多语言环境的红队测试与拒绝行为分析框架的构建，丰富了AI安全研究的技术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集