five

multilingual_safety_survey2025

收藏
Hugging Face2025-06-02 更新2025-06-03 收录
下载链接:
https://huggingface.co/datasets/CohereLabsCommunity/multilingual_safety_survey2025
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集为多语言大型语言模型(LLM)安全性研究的数据集,包含从2020到2024年间在ACL主要会议和研讨会中发表的、摘要中包含'safe'和'safety'关键词的近300篇论文的注释。数据集旨在分析和展示LLM安全性研究在语言学多样性方面的现状。
创建时间:
2025-05-31
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统性地收集2020至2024年间*ACL会议及研讨会的相关论文构建而成,采用关键词“safe”和“safety”筛选摘要内容,确保文献的相关性。数据源自ACL Anthology开源项目,由多位研究者联合筛选与标注,涵盖了论文的元数据、语言覆盖范围及研究主题等多维度信息。
使用方法
研究者可通过该数据集深入分析多语言安全研究的分布特征与语言差距。典型应用包括统计不同语言的研究比例、追踪安全主题的演变趋势,或评估非英语语言的覆盖程度。数据集以结构化格式存储,支持直接加载至数据分析工具进行进一步处理与可视化。
背景与挑战
背景概述
在人工智能领域,大型语言模型(LLM)的安全性研究日益受到关注,然而相关研究长期存在语言多样性不足的问题。2025年,由Zheng-Xin Yong、Beyza Ermis、Marzieh Fadaee等学者组成的团队发布了multilingual_safety_survey2025数据集,旨在系统分析2020至2024年间*ACL会议中LLM安全研究的语言分布情况。该数据集通过对近300篇相关论文的元数据标注,揭示了该领域高度以英语为中心的研究现状,为促进多语言安全研究提供了重要基准。
当前挑战
该数据集面临的挑战主要体现在两个方面:在研究层面,如何准确衡量和弥补LLM安全研究中的语言差距,特别是对高资源非英语语言的覆盖不足问题;在构建层面,数据收集需处理异构的ACL文献元数据,且人工标注过程中需精确识别论文涉及的语言范围和研究主题,这对标注一致性和质量控制提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,multilingual_safety_survey2025数据集为研究者提供了一个系统性的文献分析工具,用于追踪2020至2024年间*ACL会议上关于大语言模型安全研究的语言多样性问题。该数据集通过标注论文的语言覆盖范围、研究主题等关键信息,帮助研究者快速识别英语中心主义的研究现状,并为跨语言安全研究提供数据支持。
解决学术问题
该数据集揭示了当前大语言模型安全研究中的语言鸿沟问题,量化了非英语语言在安全研究中被忽视的程度。通过分析近300篇文献,研究者能够系统评估不同语言资源在安全研究中的分布失衡现象,为制定更具包容性的研究议程提供了实证基础。这一工作填补了多语言安全研究领域缺乏系统性文献分析的空白。
实际应用
在实际应用中,该数据集被广泛应用于评估多语言安全研究的公平性,指导研究资源的合理分配。企业研发团队可据此优化多语言安全检测系统的开发优先级,政策制定者能更准确地把握全球语言技术安全研究的失衡现状,学术机构则可基于数据调整研究方向,促进研究语言的多元化。
数据集最近研究
最新研究方向
随着大语言模型在多语言环境中的广泛应用,其安全性研究逐渐成为自然语言处理领域的核心议题。multilingual_safety_survey2025数据集通过系统梳理2020至2024年间国际顶级会议的文献,揭示了当前研究存在的显著语言鸿沟,即非英语语种的安全性问题长期被忽视。该数据集不仅标注了论文涉及的语言范围和安全主题,还为探索跨文化语境下的模型偏见、毒性生成等前沿问题提供了实证基础。近期学术界开始关注如何将安全框架适配到低资源语言,这一趋势在数据集中体现为对语言覆盖率的精细化标注,为构建更具包容性的人工智能安全体系提供了关键数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作