multilingual_safety_survey2025

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/CohereLabsCommunity/multilingual_safety_survey2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为多语言大型语言模型（LLM）安全性研究的数据集，包含从2020到2024年间在ACL主要会议和研讨会中发表的、摘要中包含'safe'和'safety'关键词的近300篇论文的注释。数据集旨在分析和展示LLM安全性研究在语言学多样性方面的现状。

创建时间：

2025-05-31

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地收集2020至2024年间*ACL会议及研讨会的相关论文构建而成，采用关键词“safe”和“safety”筛选摘要内容，确保文献的相关性。数据源自ACL Anthology开源项目，由多位研究者联合筛选与标注，涵盖了论文的元数据、语言覆盖范围及研究主题等多维度信息。

使用方法

研究者可通过该数据集深入分析多语言安全研究的分布特征与语言差距。典型应用包括统计不同语言的研究比例、追踪安全主题的演变趋势，或评估非英语语言的覆盖程度。数据集以结构化格式存储，支持直接加载至数据分析工具进行进一步处理与可视化。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）的安全性研究日益受到关注，然而相关研究长期存在语言多样性不足的问题。2025年，由Zheng-Xin Yong、Beyza Ermis、Marzieh Fadaee等学者组成的团队发布了multilingual_safety_survey2025数据集，旨在系统分析2020至2024年间*ACL会议中LLM安全研究的语言分布情况。该数据集通过对近300篇相关论文的元数据标注，揭示了该领域高度以英语为中心的研究现状，为促进多语言安全研究提供了重要基准。

当前挑战

该数据集面临的挑战主要体现在两个方面：在研究层面，如何准确衡量和弥补LLM安全研究中的语言差距，特别是对高资源非英语语言的覆盖不足问题；在构建层面，数据收集需处理异构的ACL文献元数据，且人工标注过程中需精确识别论文涉及的语言范围和研究主题，这对标注一致性和质量控制提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，multilingual_safety_survey2025数据集为研究者提供了一个系统性的文献分析工具，用于追踪2020至2024年间*ACL会议上关于大语言模型安全研究的语言多样性问题。该数据集通过标注论文的语言覆盖范围、研究主题等关键信息，帮助研究者快速识别英语中心主义的研究现状，并为跨语言安全研究提供数据支持。

解决学术问题

该数据集揭示了当前大语言模型安全研究中的语言鸿沟问题，量化了非英语语言在安全研究中被忽视的程度。通过分析近300篇文献，研究者能够系统评估不同语言资源在安全研究中的分布失衡现象，为制定更具包容性的研究议程提供了实证基础。这一工作填补了多语言安全研究领域缺乏系统性文献分析的空白。

实际应用

在实际应用中，该数据集被广泛应用于评估多语言安全研究的公平性，指导研究资源的合理分配。企业研发团队可据此优化多语言安全检测系统的开发优先级，政策制定者能更准确地把握全球语言技术安全研究的失衡现状，学术机构则可基于数据调整研究方向，促进研究语言的多元化。

数据集最近研究