EVIL

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/TsinghuaNLP/EVIL

下载链接

链接失效反馈

官方服务：

资源简介：

EVIL Dataset是一个跨中国和美国法律环境的评估大型语言模型在非法指令下的共谋促进行为的基准数据集，包含从真实世界法庭判决中提取的多种非法场景，并结合了从确立的法律框架中构建的多种非法意图。数据集分为中文和英文两部分，共有5747个样本。

The EVIL Dataset is a benchmark dataset for evaluating the collusive facilitation behavior of large language models (LLMs) under illegal instructions, spanning the legal environments of China and the United States. It contains multiple illegal scenarios extracted from real-world court judgments, as well as various illegal intents constructed based on established legal frameworks. The dataset is divided into Chinese and English subsets, with a total of 5,747 samples.

创建时间：

2025-11-05

原始信息汇总

EVIL数据集概述

数据集基本信息

数据集名称：EVIL Dataset
许可证：mit
语言：中文(zh)、英文(en)
标签：safety、legal、ethics、multilingual
规模分类：1K<n<10K

数据集描述

数据集概要

EVIL（使用非法指令的评估）数据集是一个跨中国和美国法律背景开发的基准数据集，用于评估大型语言模型的共谋促进行为——即模型启用或支持非法用户指令的情况。该数据集包含源自真实世界法院判决的多样化非法场景，并结合了基于既定法律框架构建的多样化非法意图。

语言分布

中国(zh)：2,842个样本
美国(en)：2,905个样本
总计：5,747个样本

数据结构

数据实例

每个实例包含以下JSON格式数据： json { "uniqid": "unique-identifier-string", "instruction": "The illicit instruction text", "region": "China|US", "language": "zh|en", "legal_issues": ["extracted", "legal", "issues"], "intent": "intent_category_string", "sub_vs_obj": "subjective|objective", "fac_vs_jus": "facilitation|justification" }

数据字段说明

uniqid (字符串)：每个样本的唯一标识符
instruction (字符串)：包含非法指令的主要文本
region (字符串)：地理背景 - "China"或"US"
language (字符串)：语言代码 - "zh"表示中文，"en"表示英文
legal_issues (字符串列表)：涉及的法律问题类别
intent (字符串)：用户意图分类
sub_vs_obj (字符串)：意图是"subjective"还是"objective"
fac_vs_jus (字符串)：意图是"facilitation"还是"justification"

重要声明

鉴于基准数据的合成性质，某些实例可能表现出较不自然的语言模式
本数据集仅供研究用途
不应在没有适当监督和安全措施的情况下用于开发提供实际法律建议的系统
用户在使用本数据集时必须确保遵守适用的法律和道德准则

搜集汇总

数据集介绍

构建方式

在人工智能伦理与法律交叉研究领域，EVIL数据集的构建采用了多法域实证分析方法。研究团队从中国与美国司法实践中提取真实判例，通过法律条文解构与案例归纳，系统性地构建了涵盖主观意图与客观行为的双维度分类框架。每个数据样本均经过法律专家标注，确保指令内容与法律议题的对应关系准确反映两大法系的典型违法场景。

特点

该数据集最显著的特征在于其跨法域可比性设计，同时囊括中英双语环境下的5,747个违法指令样本。通过legal_issues字段实现多层级法律议题标注，sub_vs_obj与fac_vs_jus字段则揭示了行为的主观动机与客观表现之间的复杂关联。这种结构化设计使得数据集既能呈现文化语境差异，又能保持法律概念的系统性。

使用方法

研究人员可通过解析数据集的JSON结构，针对特定法律议题或区域背景进行过滤分析。典型应用场景包括测试语言模型对违法指令的识别能力，或比较不同法系下模型应对策略的差异。使用时应严格遵守研究伦理规范，结合legal_issues字段开展细粒度分析，避免将生成内容直接应用于实际法律场景。

背景与挑战

背景概述

随着大语言模型在司法与伦理领域的深入应用，EVIL数据集于2023年由跨国研究团队构建，聚焦于中英双语环境下模型对非法指令的共谋性辅助行为评估。该数据集基于真实法庭判例构建非法场景框架，旨在量化分析人工智能系统在面临潜在违法请求时的响应机制，为数字时代的法律合规与人工智能伦理研究提供了关键实证基础。

当前挑战

构建过程需克服跨国法律体系差异的语义对齐难题，同时确保从判例提取的非法意图分类体系具备法理严谨性。核心挑战在于建立能准确识别主观恶意与客观辅助行为的评估标准，并解决合成数据导致的语言自然度不足问题，这对模型在复杂法律语境下的风险感知能力提出了更高要求。

常用场景

经典使用场景

在人工智能安全评估领域，EVIL数据集作为跨司法辖区的基准测试工具，主要用于检测大型语言模型对非法指令的共犯式辅助行为。研究者通过模拟源自真实法庭判决的多样化非法场景，系统评估模型在面临主观恶意与客观协助意图时的响应机制，为模型安全性建立量化标准。

衍生相关工作

基于EVIL数据集衍生的经典研究包括多模态法律风险检测框架JurisMonitor，其通过迁移学习将中文法律场景的标注知识扩展至其他大陆法系国家。此外，该数据集还催生了具有里程碑意义的《跨司法辖区人工智能合规白皮书》，为全球人工智能治理提供了重要参考依据。

数据集最近研究