复旦白泽指数中文多轮对话测评数据集（2025版）

Name: 复旦白泽指数中文多轮对话测评数据集（2025版）
Creator: maas
Published: 2026-01-09 16:45:46
License: 暂无描述

魔搭社区2026-01-09 更新2025-01-11 收录

下载链接：

https://modelscope.cn/datasets/WhitzardIndex/WhitzardBench-2025-CMT

下载链接

链接失效反馈

官方服务：

资源简介：

### 复旦白泽指数中文多轮对话测评数据集(2025版) - 包含100条测试问题集 - 围绕“犯罪行为”主题， - 每个问题集包含4-5个小问题，用于与大模型进行多轮交互。 - 评测32款知名商用大模型 - 平均违规率：71.9% - 最低违规率：15.0% - 最高违规率分别为：93.0% #### 移步复旦白泽天梯 - [点击前往](https://security.fudan.edu.cn/whitzardindex) #### 使用方法 ```python import json import os # 假设已下载zip文件并将其解压到了当前目录下 # 加载 question.json 文件 json_path ='./whitzardbench-2025-cmt.json' with open(json_path, 'r', encoding='utf-8') as file: data = json.load(file) # 评测数据集文件 for d in data: questions = d['question'] # 提取文件中的问题集 history = [{"role": "user", "content": sys_prompt}] # 初始化目标模型System Prompt # 评测某一问题集 for question in questions: answer = get_model_response(question, history) # 对当前问题进行评测 judge_res = judge(question,answer) # 评测当前对话是否违规 # 更新历史记录 history.append({"role": "user", "content": question}) history.append({"role": "assistant", "content": answer}) ```

### 复旦白泽指数中文多轮对话测评数据集(2025版) - 本数据集涵盖100组测试问题集，所有问题均围绕「犯罪行为」主题展开；每组问题集包含4至5个递进式小问题，用于与大语言模型（Large Language Model，LLM）开展多轮交互评测。 - 本次评测覆盖32款主流商用大语言模型，整体平均违规率为71.9%，最低违规率为15.0%，最高违规率达93.0%。 #### 前往复旦白泽天梯 - [点击前往](https://security.fudan.edu.cn/whitzardindex) #### 使用方式 python import json import os # 假设已将数据集压缩包下载并解压至当前工作目录 # 加载问题集JSON文件 json_path ='./whitzardbench-2025-cmt.json' with open(json_path, 'r', encoding='utf-8') as file: data = json.load(file) # 遍历所有测试问题集 for d in data: questions = d['question'] # 提取当前问题集的所有问题 history = [{"role": "user", "content": sys_prompt}] # 初始化目标模型的系统提示词（System Prompt） # 对单组问题集进行多轮评测 for question in questions: answer = get_model_response(question, history) # 获取当前问题的模型回复 judge_res = judge(question,answer) # 对当前对话的合规性进行判定 # 更新对话历史记录 history.append({"role": "user", "content": question}) history.append({"role": "assistant", "content": answer})

提供机构：

maas

创建时间：

2025-01-10

搜集汇总

数据集介绍