cv-injection-dataset

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/assiaCount/cv-injection-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练模型检测CV或简历文本中的prompt injection攻击的数据集。数据集包含文本和对应的标记序列，共有训练集7174个样本和验证集1794个样本。数据集使用BIO标记法对token进行分类，标签包括正常文本、注入开始和注入延续。

创建时间：

2025-07-22

原始信息汇总

CV Injection Detection Dataset 概述

数据集基本信息

任务类型: 令牌分类（token-classification）
语言: 英语（en）、法语（fr）
数据规模: 1K<n<10K
配置名称: default

数据结构

特征:
- text: 字符串类型（string）
- token_labels: 整数序列（sequence: int32）
数据分割:
- train: 7174 个样本
- validation: 1794 个样本

标签说明

采用 BIO 标记法进行令牌分类：

0: O（Outside） - 正常文本
1: B-INJ（Beginning） - 注入开始
2: I-INJ（Inside） - 注入延续

使用示例

python from datasets import load_dataset

加载数据集

dataset = load_dataset("assiaCount/cv-injection-dataset")

访问训练和验证集

train_data = dataset[train] val_data = dataset[validation]

模型适配信息

推荐模型: answerdotai/ModernBERT-base
最大长度: 8192 个令牌
任务: 令牌分类（提示注入检测）

搜集汇总

数据集介绍

构建方式

在简历文本安全检测领域，cv-injection-dataset数据集通过系统化标注方法构建而成。研究团队采用BIO标注体系对文本中的提示注入攻击进行细粒度标记，其中0表示普通文本，1标注注入起始位置，2标识注入延续部分。原始数据经过严格筛选和清洗，最终形成包含训练集7174条、验证集1794条的双语样本，覆盖英语和法语两种语言场景。

使用方法

基于该数据集开发防护系统时，建议采用现代Transformer架构进行建模。通过HuggingFace数据集库可快速载入预分割的训练验证集，配合answerdotai/ModernBERT-base等专用模型可获得最佳效果。实践过程中需注意调整最大序列长度参数以适应长文本特性，同时利用BIO标签体系设计对应的损失函数，确保模型能够准确识别注入片段的起始边界与延续范围。

背景与挑战

背景概述

随着人工智能技术在简历筛选领域的广泛应用，针对简历文本的提示注入攻击逐渐成为新型安全威胁。cv-injection-dataset由assiaCount团队于近年创建，旨在为检测简历文本中的恶意提示注入提供标准化评估基准。该数据集采用双语（英语和法语）构建，包含近9000条标注样本，通过BIO标注体系精准标记注入文本的起始与延续位置。其核心研究价值在于解决了自然语言处理安全领域中对抗性攻击检测的关键问题，为构建鲁棒的简历分析系统提供了重要数据支撑。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，提示注入攻击往往具有高度隐蔽性和语义混淆性，模型需在保持正常简历信息理解能力的同时准确识别恶意内容；在构建过程中，标注者需处理自然语言表达的多样性，特别是双语语境下攻击模式的差异性标注。长文本处理（最大8192token）带来的计算效率问题，以及少量注入样本在正常文本中的不均衡分布，进一步增加了模型训练的复杂度。

常用场景

经典使用场景

在自然语言处理领域，CV注入检测数据集为研究简历文本中的恶意提示注入攻击提供了重要资源。该数据集通过BIO标注体系对注入内容进行细粒度标记，使模型能够精准识别攻击起始位置和延续范围。基于Transformer架构的预训练模型在该数据集上展现出卓越的性能，尤其在处理长文本序列时，8192的最大标记长度有效保留了上下文关键信息。

解决学术问题

该数据集解决了人工智能安全领域的关键挑战——如何有效防御针对简历解析系统的对抗性攻击。通过提供7174个训练样本和1794个验证样本，研究者能够系统性地探索注入攻击的文本模式特征。这种标注数据显著提升了模型识别隐蔽性注入的能力，为构建鲁棒的简历处理系统奠定了理论基础，同时推动了对抗样本检测技术的发展。

实际应用

在实际招聘流程自动化场景中，该数据集训练的模型可集成至ATS（申请人跟踪系统），实时筛查简历中的恶意代码或误导性指令。多语言支持特性使其能处理英文和法文简历，满足跨国企业的安全需求。企业人力资源部门借助此类技术，可有效预防攻击者通过精心构造的简历文本获取系统权限或干扰招聘决策。

数据集最近研究