beki/privy

Name: beki/privy
Creator: beki
Published: 2023-04-25 21:45:06
License: 暂无描述

Hugging Face2023-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/beki/privy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的PII（个人身份信息）数据集，使用Privy工具生成。Privy工具解析OpenAPI规范并生成合成的请求负载，搜索API模式定义中的关键词以选择适当的数据提供者。数据集包含多种协议跟踪格式（如JSON、SQL、HTML和XML），并包含60多种PII类型。数据集支持的任务包括命名实体识别（NER）和PII分类。数据集的语言为英语，数据实例展示了包含PII的JSON格式数据及其标注信息。

提供机构：

beki

原始信息汇总

数据集概述

名称: Privy English

语言: 英语

许可证: MIT

多语言性: 单语

大小: 100K<n<200K 和 300K<n<400K

任务类别: 令牌分类

任务ID: 命名实体识别

标签: PII检测

训练-评估索引:

配置: privy-small
任务: 令牌分类
任务ID: 实体提取
分割:
- 训练分割: train
- 评估分割: test
指标:
- 类型: seqeval
- 名称: seqeval

数据集描述

摘要: 该数据集是一个合成PII数据集，使用Privy工具从OpenAPI规范中生成。它包括60多种PII类型，并转换为多种协议跟踪格式，如JSON和SQL。

支持的任务和排行榜: 命名实体识别（NER）和PII分类。

标签方案: 包含26个标签，用于60个PII数据提供者，如PERSON, LOCATION, NRP, DATE_TIME等。

数据集结构

数据实例: 示例数据包括full_text, masked, spans, template_id和metadata等字段，其中spans字段详细记录了实体类型、值及其在文本中的位置。

数据集创建

源数据: 数据集基于OpenAPI规范生成，但具体的初始数据收集和归一化过程未详细说明。

注释: 注释过程和注释者信息未详细说明。

个人和敏感信息: 数据集处理了多种个人和敏感信息类型，但具体处理细节未详细说明。

使用数据的考虑

社会影响: 未详细说明。

偏见讨论: 未详细说明。

其他已知限制: 未详细说明。

附加信息

数据集管理员: 未详细说明。

许可证信息: 未详细说明。

引用信息:

@online{WinNT, author = {Benjamin Kilimnik}, title = {{Privy} Synthetic PII Protocol Trace Dataset}, year = 2022, url = {https://huggingface.co/datasets/beki/privy}, }

贡献: 未详细说明。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个合成的PII数据集，包含多种协议跟踪格式和60多种PII类型，主要用于命名实体识别和PII分类任务。数据语言为英文，采用MIT许可证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集