beki/privy
收藏数据集概述
名称: Privy English
语言: 英语
许可证: MIT
多语言性: 单语
大小: 100K<n<200K 和 300K<n<400K
任务类别: 令牌分类
任务ID: 命名实体识别
标签: PII检测
训练-评估索引:
- 配置: privy-small
- 任务: 令牌分类
- 任务ID: 实体提取
- 分割:
- 训练分割: train
- 评估分割: test
- 指标:
- 类型: seqeval
- 名称: seqeval
数据集描述
摘要: 该数据集是一个合成PII数据集,使用Privy工具从OpenAPI规范中生成。它包括60多种PII类型,并转换为多种协议跟踪格式,如JSON和SQL。
支持的任务和排行榜: 命名实体识别(NER)和PII分类。
标签方案: 包含26个标签,用于60个PII数据提供者,如PERSON, LOCATION, NRP, DATE_TIME等。
数据集结构
数据实例: 示例数据包括full_text, masked, spans, template_id和metadata等字段,其中spans字段详细记录了实体类型、值及其在文本中的位置。
数据集创建
源数据: 数据集基于OpenAPI规范生成,但具体的初始数据收集和归一化过程未详细说明。
注释: 注释过程和注释者信息未详细说明。
个人和敏感信息: 数据集处理了多种个人和敏感信息类型,但具体处理细节未详细说明。
使用数据的考虑
社会影响: 未详细说明。
偏见讨论: 未详细说明。
其他已知限制: 未详细说明。
附加信息
数据集管理员: 未详细说明。
许可证信息: 未详细说明。
引用信息:
@online{WinNT, author = {Benjamin Kilimnik}, title = {{Privy} Synthetic PII Protocol Trace Dataset}, year = 2022, url = {https://huggingface.co/datasets/beki/privy}, }
贡献: 未详细说明。




