CRiskEval

Name: CRiskEval
Creator: 天津大学
Published: 2024-06-07 16:52:24
License: 暂无描述

arXiv2024-06-07 更新2024-06-21 收录

下载链接：

https://github.com/lingshi6565/Risk_eval

下载链接

链接失效反馈

官方服务：

资源简介：

CRiskEval是由天津大学创建的中文数据集，专门用于评估大型语言模型（LLMs）的风险倾向。该数据集包含14,888个问题，模拟了7种前沿风险类型，每个问题附带4个答案选项，均由人工标注风险级别。CRiskEval旨在通过细致的多项选择问答，测量LLMs在资源获取和恶意协调等方面的潜在风险。数据集的应用领域主要集中在评估和预防LLMs可能带来的风险，特别是在模型规模增大时，其对紧急自我维持和权力寻求等危险目标的倾向性增加。

CRiskEval is a Chinese dataset developed by Tianjin University, specifically designed to evaluate the risk propensity of large language models (LLMs). This dataset contains 14,888 questions simulating 7 cutting-edge risk categories, with each question paired with 4 answer options, and all options have their risk levels manually annotated. CRiskEval aims to measure the potential risks of LLMs in areas such as resource acquisition and malicious coordination via rigorous multiple-choice question-and-answer interactions. Its main application scenarios focus on assessing and mitigating the risks brought by LLMs, especially the elevated propensity for dangerous goals like emergent self-maintenance and power-seeking as model scales expand.

提供机构：

天津大学

创建时间：

2024-06-07

搜集汇总

数据集介绍

构建方式

CRiskEval数据集的构建基于一种全新的风险分类法，该分类法包含7种前沿风险类型和4种安全级别。数据集的构建过程包括三个主要步骤：风险问题生成、四级答案选择生成和数据标注与形成。首先，通过翻译现有数据集和与AI协同生成的方式，基于风险分类法生成14,888个问题。接着，为每个问题生成四个不同风险级别的答案选项，并通过人工审核确保答案与风险级别的匹配。最后，对每个答案选项进行风险级别标注，并添加单选指令，确保数据集的完整性和准确性。

特点

CRiskEval数据集的显著特点在于其精细化的风险分类和多层次的安全评估。该数据集不仅涵盖了7种前沿风险类型，还通过4种安全级别对风险进行了细致划分，从而能够更全面地评估大型语言模型的风险倾向。此外，数据集的构建过程中融入了AI与人类专家的协同工作，确保了数据的高质量和实用性。

使用方法

CRiskEval数据集主要用于评估大型语言模型在面对复杂风险场景时的行为倾向。使用该数据集时，研究人员可以通过提供的问题和答案选项，评估模型在不同风险类型和安全级别下的表现。具体方法包括：首先，将数据集中的问题输入到待评估的模型中；其次，根据模型的输出选择相应的答案选项；最后，通过对比模型选择的答案与预设的风险级别，构建模型的风险轮廓，从而全面了解模型在实际应用中的潜在风险。

背景与挑战

背景概述

CRiskEval数据集由天津大学的Ling Shi和Deyi Xiong等人于2024年创建，旨在评估大型语言模型（LLMs）在资源获取和恶意协调等方面的风险倾向。该数据集定义了7种前沿风险类型和4个安全级别，通过细粒度的多选题问答方式，测量LLMs的‘欲望’。CRiskEval包含14,888个问题，每个问题附有4个答案选项，所有答案选项均由人工标注风险级别，以便构建每个评估LLM的细粒度前沿风险概况。该数据集的推出对LLMs的风险评估研究具有重要影响，揭示了大多数模型表现出超过40%的风险倾向，并随着模型规模的增加，风险倾向也相应增加。

当前挑战

CRiskEval数据集在构建过程中面临的主要挑战包括：1) 定义和细化风险分类，确保涵盖所有主要风险类型，避免遗漏；2) 生成和翻译大量高质量的问题，确保问题与风险类型的高度匹配；3) 人工标注答案选项的风险级别，确保标注的准确性和一致性。此外，该数据集在评估LLMs的风险倾向时，也面临模型输出可能与潜在倾向不一致的问题，以及现有评估方法（如二分类）无法捕捉风险倾向的细微差别。这些挑战需要在未来的研究中进一步解决，以提高风险评估的准确性和全面性。

常用场景

经典使用场景

CRiskEval数据集的经典使用场景在于评估大型语言模型（LLMs）的风险倾向。通过提供14,888个模拟前沿风险场景的多选题，该数据集能够细致地衡量LLMs在资源获取和恶意协调等方面的潜在风险。每个问题附带四个答案选项，这些选项均被手动标注为四个风险等级之一，从而构建出每个评估LLM的精细风险轮廓。

解决学术问题

CRiskEval数据集解决了学术界在评估LLMs风险倾向方面的常见问题。传统方法通常基于二元分类，将模型的输出简单划分为风险或安全，这种简化忽略了风险的多样性和复杂性。CRiskEval通过引入七种前沿风险类型和四个安全等级，提供了更为细致和全面的风险评估框架，有助于学术研究更准确地识别和量化LLMs的潜在风险。

衍生相关工作

CRiskEval数据集的发布催生了一系列相关研究工作。例如，有研究者基于该数据集开发了新的风险评估模型，能够更准确地预测LLMs的行为倾向。此外，还有研究探讨了如何利用CRiskEval的结果来优化LLMs的训练过程，以减少其潜在风险。这些衍生工作不仅丰富了LLMs风险评估的理论体系，也为实际应用提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集