EVIL
收藏Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/TsinghuaNLP/EVIL
下载链接
链接失效反馈官方服务:
资源简介:
EVIL Dataset是一个跨中国和美国法律环境的评估大型语言模型在非法指令下的共谋促进行为的基准数据集,包含从真实世界法庭判决中提取的多种非法场景,并结合了从确立的法律框架中构建的多种非法意图。数据集分为中文和英文两部分,共有5747个样本。
The EVIL Dataset is a benchmark dataset for evaluating the collusive facilitation behavior of large language models (LLMs) under illegal instructions, spanning the legal environments of China and the United States. It contains multiple illegal scenarios extracted from real-world court judgments, as well as various illegal intents constructed based on established legal frameworks. The dataset is divided into Chinese and English subsets, with a total of 5,747 samples.
创建时间:
2025-11-05
原始信息汇总
EVIL数据集概述
数据集基本信息
- 数据集名称:EVIL Dataset
- 许可证:mit
- 语言:中文(zh)、英文(en)
- 标签:safety、legal、ethics、multilingual
- 规模分类:1K<n<10K
数据集描述
数据集概要
EVIL(使用非法指令的评估)数据集是一个跨中国和美国法律背景开发的基准数据集,用于评估大型语言模型的共谋促进行为——即模型启用或支持非法用户指令的情况。该数据集包含源自真实世界法院判决的多样化非法场景,并结合了基于既定法律框架构建的多样化非法意图。
语言分布
- 中国(zh):2,842个样本
- 美国(en):2,905个样本
- 总计:5,747个样本
数据结构
数据实例
每个实例包含以下JSON格式数据: json { "uniqid": "unique-identifier-string", "instruction": "The illicit instruction text", "region": "China|US", "language": "zh|en", "legal_issues": ["extracted", "legal", "issues"], "intent": "intent_category_string", "sub_vs_obj": "subjective|objective", "fac_vs_jus": "facilitation|justification" }
数据字段说明
- uniqid (字符串):每个样本的唯一标识符
- instruction (字符串):包含非法指令的主要文本
- region (字符串):地理背景 - "China"或"US"
- language (字符串):语言代码 - "zh"表示中文,"en"表示英文
- legal_issues (字符串列表):涉及的法律问题类别
- intent (字符串):用户意图分类
- sub_vs_obj (字符串):意图是"subjective"还是"objective"
- fac_vs_jus (字符串):意图是"facilitation"还是"justification"
重要声明
- 鉴于基准数据的合成性质,某些实例可能表现出较不自然的语言模式
- 本数据集仅供研究用途
- 不应在没有适当监督和安全措施的情况下用于开发提供实际法律建议的系统
- 用户在使用本数据集时必须确保遵守适用的法律和道德准则
搜集汇总
数据集介绍

构建方式
在人工智能伦理与法律交叉研究领域,EVIL数据集的构建采用了多法域实证分析方法。研究团队从中国与美国司法实践中提取真实判例,通过法律条文解构与案例归纳,系统性地构建了涵盖主观意图与客观行为的双维度分类框架。每个数据样本均经过法律专家标注,确保指令内容与法律议题的对应关系准确反映两大法系的典型违法场景。
特点
该数据集最显著的特征在于其跨法域可比性设计,同时囊括中英双语环境下的5,747个违法指令样本。通过legal_issues字段实现多层级法律议题标注,sub_vs_obj与fac_vs_jus字段则揭示了行为的主观动机与客观表现之间的复杂关联。这种结构化设计使得数据集既能呈现文化语境差异,又能保持法律概念的系统性。
使用方法
研究人员可通过解析数据集的JSON结构,针对特定法律议题或区域背景进行过滤分析。典型应用场景包括测试语言模型对违法指令的识别能力,或比较不同法系下模型应对策略的差异。使用时应严格遵守研究伦理规范,结合legal_issues字段开展细粒度分析,避免将生成内容直接应用于实际法律场景。
背景与挑战
背景概述
随着大语言模型在司法与伦理领域的深入应用,EVIL数据集于2023年由跨国研究团队构建,聚焦于中英双语环境下模型对非法指令的共谋性辅助行为评估。该数据集基于真实法庭判例构建非法场景框架,旨在量化分析人工智能系统在面临潜在违法请求时的响应机制,为数字时代的法律合规与人工智能伦理研究提供了关键实证基础。
当前挑战
构建过程需克服跨国法律体系差异的语义对齐难题,同时确保从判例提取的非法意图分类体系具备法理严谨性。核心挑战在于建立能准确识别主观恶意与客观辅助行为的评估标准,并解决合成数据导致的语言自然度不足问题,这对模型在复杂法律语境下的风险感知能力提出了更高要求。
常用场景
经典使用场景
在人工智能安全评估领域,EVIL数据集作为跨司法辖区的基准测试工具,主要用于检测大型语言模型对非法指令的共犯式辅助行为。研究者通过模拟源自真实法庭判决的多样化非法场景,系统评估模型在面临主观恶意与客观协助意图时的响应机制,为模型安全性建立量化标准。
衍生相关工作
基于EVIL数据集衍生的经典研究包括多模态法律风险检测框架JurisMonitor,其通过迁移学习将中文法律场景的标注知识扩展至其他大陆法系国家。此外,该数据集还催生了具有里程碑意义的《跨司法辖区人工智能合规白皮书》,为全球人工智能治理提供了重要参考依据。
数据集最近研究
最新研究方向
随着人工智能伦理与安全领域的重要性日益凸显,EVIL数据集作为跨中英法律背景的基准,正推动对大型语言模型共谋助长行为的前沿探索。研究聚焦于模型在应对非法指令时的潜在风险,通过真实法庭案例构建多样化违法场景,深入分析主观与客观意图、助长与辩护行为的分类机制。当前热点集中于利用多语言法律框架提升模型安全对齐能力,防范技术滥用引发的社会伦理问题,这一方向不仅强化了人工智能系统的合规性设计,也为全球算法治理提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



