Libra-Test
收藏Hugging Face2025-01-07 更新2025-01-08 收录
下载链接:
https://huggingface.co/datasets/caskcsg/Libra-Test
下载链接
链接失效反馈官方服务:
资源简介:
Libra-Test是一个专为中文大模型护栏而构建的评测基准,涵盖了7个关键风险场景和超过5,700条专家标注的数据。数据集包括真实数据、合成数据和翻译数据,确保了数据的多样性和广泛性。真实数据来源于Safety-Prompts数据集,合成数据使用AART方法生成,翻译数据则来自BeaverTails测试集的翻译。数据集的使用步骤包括环境安装、数据加载、推理与评测等,提供了详细的脚本和参数说明。
创建时间:
2025-01-02
搜集汇总
数据集介绍

构建方式
Libra-Test数据集的构建过程体现了高度的专业性和严谨性。该数据集通过整合三个主要数据来源:真实数据、合成数据和翻译数据,确保了数据的多样性和广泛性。真实数据来源于Safety-Prompts数据集,经过筛选后在不同中文大模型上生成回复;合成数据则采用AART方法生成,进一步丰富了数据集的复杂性;翻译数据则是从BeaverTails测试集翻译而来,保留了原数据的有害问题及其回复。这种多源数据融合的方式,使得数据集能够全面覆盖中文大模型可能面临的各种风险场景。
特点
Libra-Test数据集的特点在于其广泛的覆盖范围和精细的标注体系。数据集涵盖了七大关键风险场景和39个子类别,确保了评测基准的全面性。每个样本都经过三名人工注释者的独立标记,并通过多数投票确定最终标签,保证了标注的一致性和准确性。此外,数据集还特别关注了难例的筛选和手动注释,进一步提升了评测的难度和可靠性。这种多层次、多维度的标注体系,使得Libra-Test成为评估中文大模型安全性的重要工具。
使用方法
Libra-Test数据集的使用方法简洁明了,便于研究人员快速上手。用户可以通过Hugging Face Hub下载数据集,并按照提供的JSON格式进行加载。数据集的使用流程包括环境安装、数据加载、推理与评测等步骤。项目提供了详细的脚本示例,如`inference.py`和`evaluate_metrics.py`,帮助用户完成从推理结果生成到安全指标统计的端到端评测流程。通过这些工具,用户可以轻松评估不同模型在安全检测任务中的表现,并获得准确率、F1值等关键指标。
背景与挑战
背景概述
Libra-Test数据集是专为中文大模型护栏设计的评测基准,旨在评估大模型在多种风险场景下的安全性。该数据集由清华大学等机构的研究团队于2025年创建,涵盖了7个关键风险场景和39个子类别,共计5,700余条专家标注数据。其核心研究问题在于如何有效检测和防范中文大模型在生成内容时可能产生的有害信息。Libra-Test通过整合真实数据、合成数据和翻译数据,构建了一个多样化的评测环境,为中文大模型的安全评估提供了重要参考。该数据集在自然语言处理领域,尤其是大模型安全防护方面,具有重要的影响力。
当前挑战
Libra-Test数据集在构建和应用过程中面临多重挑战。首先,数据多样性要求从不同来源整合数据,包括真实数据、合成数据和翻译数据,这增加了数据一致性和标注质量的难度。其次,数据标注过程中,开源大模型的初步标注结果存在不一致性,需通过人工筛选和手动注释来解决难例问题,这一过程耗时且复杂。此外,数据集定义了统一的安全规则,并要求三名人工注释者独立标记,以确保标注的准确性和一致性,这对标注团队的专业性和协作能力提出了较高要求。最后,评测过程中,如何在不同风险场景下准确评估模型的安全性能,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
Libra-Test数据集在中文大模型的安全护栏评测中具有重要应用。通过涵盖七大关键风险场景和5700多条专家标注数据,该数据集为模型的安全性能提供了全面的评估基准。研究人员可以利用这些数据,测试和优化模型在有害内容识别和过滤方面的能力,确保模型在实际应用中的安全性。
解决学术问题
Libra-Test数据集解决了中文大模型在安全护栏领域的评测难题。通过整合真实数据、合成数据和翻译数据,该数据集提供了多样化的测试场景,帮助研究人员识别模型在不同风险场景下的表现。此外,数据集通过人工注释和多数投票机制,确保了标注的一致性和准确性,为模型的安全性能评估提供了可靠的数据支持。
衍生相关工作
基于Libra-Test数据集,研究人员开发了多种中文大模型的安全护栏系统,如Libra-Guard系列模型。这些模型在安全检测任务中表现出色,显著优于传统的Instruct和Guard基线模型。此外,该数据集还推动了中文大模型安全评测领域的研究,促进了相关算法和技术的进步。
以上内容由遇见数据集搜集并总结生成



