five

beki/privy

收藏
Hugging Face2023-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/beki/privy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成的PII(个人身份信息)数据集,使用Privy工具生成。Privy工具解析OpenAPI规范并生成合成的请求负载,搜索API模式定义中的关键词以选择适当的数据提供者。数据集包含多种协议跟踪格式(如JSON、SQL、HTML和XML),并包含60多种PII类型。数据集支持的任务包括命名实体识别(NER)和PII分类。数据集的语言为英语,数据实例展示了包含PII的JSON格式数据及其标注信息。
提供机构:
beki
原始信息汇总

数据集概述

名称: Privy English

语言: 英语

许可证: MIT

多语言性: 单语

大小: 100K<n<200K 和 300K<n<400K

任务类别: 令牌分类

任务ID: 命名实体识别

标签: PII检测

训练-评估索引:

  • 配置: privy-small
  • 任务: 令牌分类
  • 任务ID: 实体提取
  • 分割:
    • 训练分割: train
    • 评估分割: test
  • 指标:
    • 类型: seqeval
    • 名称: seqeval

数据集描述

摘要: 该数据集是一个合成PII数据集,使用Privy工具从OpenAPI规范中生成。它包括60多种PII类型,并转换为多种协议跟踪格式,如JSON和SQL。

支持的任务和排行榜: 命名实体识别(NER)和PII分类。

标签方案: 包含26个标签,用于60个PII数据提供者,如PERSON, LOCATION, NRP, DATE_TIME等。

数据集结构

数据实例: 示例数据包括full_text, masked, spans, template_idmetadata等字段,其中spans字段详细记录了实体类型、值及其在文本中的位置。

数据集创建

源数据: 数据集基于OpenAPI规范生成,但具体的初始数据收集和归一化过程未详细说明。

注释: 注释过程和注释者信息未详细说明。

个人和敏感信息: 数据集处理了多种个人和敏感信息类型,但具体处理细节未详细说明。

使用数据的考虑

社会影响: 未详细说明。

偏见讨论: 未详细说明。

其他已知限制: 未详细说明。

附加信息

数据集管理员: 未详细说明。

许可证信息: 未详细说明。

引用信息:

@online{WinNT, author = {Benjamin Kilimnik}, title = {{Privy} Synthetic PII Protocol Trace Dataset}, year = 2022, url = {https://huggingface.co/datasets/beki/privy}, }

贡献: 未详细说明。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个合成的PII数据集,包含多种协议跟踪格式和60多种PII类型,主要用于命名实体识别和PII分类任务。数据语言为英文,采用MIT许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作