five

gretelai/synthetic_pii_finance_multilingual

收藏
Hugging Face2024-06-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/gretelai/synthetic_pii_finance_multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含个人身份信息(PII)的合成金融文档数据集,支持多种语言(英语、法语、德语、荷兰语、西班牙语、意大利语)。数据集的主要用途包括训练NER模型检测和标记PII、测试PII扫描系统、评估去识别系统的性能以及开发和测试金融行业的数据隐私解决方案。数据集包含55,940条记录,分为50,776条训练记录和5,164条测试记录,涵盖了100种不同的金融文档格式,每种格式有20个特定子类型。数据集中的PII类型包括29种常见的金融行业PII类型,文档平均长度为1,357字符。数据集通过Gretel Navigator生成,使用了多个LLM模型进行数据生成和验证,并通过LLM-as-a-Judge技术进行质量评估。

This dataset is a synthetic financial document dataset containing personally identifiable information (PII), supporting multiple languages including English, French, German, Dutch, Spanish, and Italian. Its primary applications include training named entity recognition (NER) models to detect and tag PII, testing PII scanning systems, evaluating the performance of de-identification systems, as well as developing and testing data privacy solutions for the financial industry. The dataset consists of 55,940 records in total, split into 50,776 training records and 5,164 test records. It covers 100 distinct financial document formats, with 20 specific subtypes for each format. The dataset includes 29 common PII types specific to the financial industry, and the average length of the documents is 1,357 characters. This dataset was generated via Gretel Navigator, with multiple large language models (LLMs) used for data generation and validation, and quality assessment conducted using the LLM-as-a-Judge technique.
提供机构:
gretelai
原始信息汇总

数据集概述

基本信息

  • 语言: 英语、法语、德语、荷兰语、西班牙语、意大利语
  • 许可: Apache 2.0
  • 大小类别: 10K<n<100K
  • 任务类别: 文本分类、填充掩码、标记分类

数据集结构

特征

  • level_0: int64
  • index: int64
  • document_type: string
  • document_description: string
  • expanded_type: string
  • expanded_description: string
  • language: string
  • language_description: string
  • domain: string
  • generated_text: string
  • pii_spans: string
  • conformance_score: int64
  • quality_score: int64
  • toxicity_score: int64
  • bias_score: int64
  • groundedness_score: int64

分割

  • 训练集: 50346条记录,106395754字节
  • 测试集: 5594条记录,11921618字节

下载和数据集大小

  • 下载大小: 53799552字节
  • 数据集大小: 118317372字节

配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 测试集路径: data/test-*

标签

  • 合成数据
  • PII
  • 金融
  • 完整文档

数据集内容

  • 记录总数: 55,940条
    • 训练集: 50,776条
    • 测试集: 5,164条
  • 文档格式: 覆盖100种不同的金融文档格式,每种格式有20个特定子类型
  • PII类型: 29种不同的PII类型
  • 文档长度: 平均长度为1,357个字符
  • 多语言支持: 英语、西班牙语、瑞典语、德语、意大利语、荷兰语、法语

语言支持

  • 英语: 28,910文档
  • 西班牙语: 4,609文档
  • 瑞典语: 4,543文档
  • 德语: 4,530文档
  • 意大利语: 4,473文档
  • 荷兰语: 4,449文档
  • 法语: 4,426文档

PII类型分布

PII类型 训练集 测试集
account_pin 1266 143
api_key 922 91
bank_routing_number 1452 158
bban 1477 166
company 56338 6342
credit_card_number 1224 120
credit_card_security_code 1275 160
customer_id 1823 195
date 75830 8469
date_of_birth 2339 250
date_time 767 89
driver_license_number 1269 140
email 12914 1422
employee_id 1696 175
first_name 2565 279
iban 1814 203
ipv4 1591 164
ipv6 1191 134
last_name 1594 215
local_latlng 802 97
name 89642 10318
passport_number 1426 136
password 789 101
phone_number 8277 946
ssn 1313 153
street_address 37845 4307
swift_bic_code 1917 227
time 15735 1746
user_name 906 71

数据集生成

  • 文档生成: 基于指定的文档类型和描述生成合成金融文档,包括PII类型。
  • PII标签: 识别并标记生成文档中的PII元素。
  • 验证和额外PII检测: 使用Gliner NER库验证和检测额外的PII。
  • 人机交互: 使用提供的笔记本和可视化工具检查和添加合成记录到训练集。
  • LLM-as-a-Judge: 使用LLM-as-a-Judge技术根据特定标准评估和过滤合成数据。

数据集细节

字段

  • document_type: 文档类型
  • document_description: 文档描述
  • expanded_type: 文档子类型
  • expanded_description: 子类型详细描述
  • language: 语言
  • language_description: 语言描述
  • generated_text: 生成文本
  • pii_spans: PII跨度列表
  • conformance_score: 一致性得分
  • quality_score: 质量得分
  • toxicity_score: 毒性得分
  • bias_score: 偏见得分
  • groundedness_score: 事实基础得分

示例

json { "document_type": "FpML", "document_description": "A standard for representing data concerning financial derivatives, including trade capture, confirmation, and valuation, often used in electronic trading and risk management.", "expanded_type": "Inflation Swaps", "expanded_description": "To generate synthetic data for Inflation Swaps, define the reference index, notional amount, payment frequency, and inflation assumptions. Simulate inflation rates and corresponding cash flows under different economic conditions and inflation scenarios. Populate the dataset with the simulated cash flows and inflation swap terms to capture a wide range of inflation-related risk exposures.", "language": "English", "language_description": "English language as spoken in the United States, the UK, or Canada", "domain": "finance", "generated_text": "<?xml version="1.0" encoding="UTF-8"?> <fx:message xmlns:fx="http://www.fixprotocol.org/FpML-5-5" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.fixprotocol.org/FpML-5-5 http://www.fixprotocol.org/fixml/schema/FpML-5-5-0.xsd"> <header> <party id="sender"> <name>Castillo Ltd</name> </party> <party id="target"> <name>Counterparty Inc.</name> </party> <sentDate>2022-05-12</sentDate> </header> <body> <trade> <tradeId>20220512-1001</tradeId> <product> <productType>4</productType> <swap> <inflationSwap> <referenceIndex> <index> <name>Consumer Price Index</name> <currency>USD</currency> </index> </referenceIndex> <notionalAmount currency="USD">10000000</notionalAmount> <paymentFrequency>2</paymentFrequency> <inflationAssumptions> <indexTenor>1Y</indexTenor> <indexTenor>2Y</indexTenor> <indexTenor>5Y</indexTenor> </inflationAssumptions> </inflationSwap> </swap> </product> <partyTradeRole> <partyRef id="sender"/> <tradeRole>1</tradeRole> </partyTradeRole> <partyTradeRole> <partyRef id="target"/> <tradeRole>2</tradeRole> </partyTradeRole> ", "pii_spans": [ {"start": 342, "end": 354, "label": "company"}, {"start": 418, "end": 435, "label": "company"}, {"start": 474, "end": 484, "label": "date"} ], "conformance_score": 80.0, "quality_score": 95.0, "toxicity_score": 0.0, "bias_score": 0.0, "groundedness_score": 90.0 }

数据质量评估

  • 一致性得分: 0-100,表示生成文本与提供标签和描述的一致性
  • 质量得分: 0-100,基于语法正确性、连贯性和相关性
  • 毒性得分: 0-100,表示生成文本中的毒性内容
  • 偏见得分: 0-100,表示生成文本中的无意偏见
  • 事实基础得分: 0-100,表示生成文本的事实正确性

LLM-as-a-Judge结果

  • 记录中,毒性得分或偏见得分高于20,或事实基础得分、质量得分、一致性得分低于80的记录被移除。
搜集汇总
数据集介绍
main_image_url
构建方式
在金融数据隐私保护领域,合成数据生成技术为模型训练提供了安全可靠的资源。本数据集采用Gretel Navigator这一基于智能体的复合人工智能系统,通过精细化的流程构建而成。首先,系统利用经过金融行业数据微调的大型语言模型,生成涵盖100种金融文档格式的完整文本,并嵌入29类合成个人身份信息。随后,结合Gliner命名实体识别库对PII跨度进行自动化标注与验证,辅以LLM-as-a-Judge技术对生成内容进行多维度质量评分,最终通过人工抽样检查确保数据可靠性,有效避免了真实敏感信息的泄露风险。
使用方法
针对金融隐私计算的实际需求,本数据集支持多层次的模型开发与评估流程。研究者可直接加载标准化数据分割,利用标注的PII跨度训练命名实体识别模型,或构建端到端的隐私信息检测系统。数据集内嵌的质量评分体系支持对生成模型进行多维评估,包括文本合规性、偏见控制等关键指标。对于数据脱敏技术研发,可通过替换标注实体进行掩码训练,亦可基于多语言文档开展跨文化隐私保护策略比较研究。所有数据均采用Apache 2.0协议,确保学术与工业应用的合规性。
背景与挑战
背景概述
在金融数据隐私与安全领域,合成数据生成技术为解决敏感信息保护与模型训练需求之间的矛盾提供了创新路径。由Gretel AI于2024年发布的gretelai/synthetic_pii_finance_multilingual数据集,旨在构建一个包含多语言金融文档与个人可识别信息(PII)标注的大规模合成资源。该数据集依托Gretel Navigator复合人工智能系统生成,覆盖英语、法语、德语等七种语言,囊括100种金融文档格式及其20种子类型,共计包含29类PII实体。其核心研究问题聚焦于如何在避免真实隐私泄露的前提下,为命名实体识别、隐私扫描系统评估及去标识化技术开发提供高质量、多样化的训练与测试基准。该资源的推出显著缓解了金融领域因数据敏感性导致的公开数据稀缺困境,为隐私保护计算与自然语言处理技术的交叉研究注入了新的活力。
当前挑战
该数据集致力于应对金融文档中个人可识别信息检测与保护的复杂挑战。在领域问题层面,金融文本通常具有专业术语密集、结构异构及多语言交织的特点,使得PII实体边界模糊、语境依赖性强,传统模型在此类场景下的泛化能力与准确率面临严峻考验。构建过程中的挑战亦不容忽视:合成数据的真实性需在语法连贯、领域知识准确与隐私安全间取得平衡;PII标注的完整性易受生成模型偏差与命名实体识别工具误差的影响,可能导致假阴性或假阳性标注;此外,多语言文档的生成与质量评估需克服语言特性差异与文化语境适配的难题,确保各语言子集在数据分布与质量指标上的一致性。
常用场景
经典使用场景
在金融文本隐私保护领域,该数据集为命名实体识别模型的训练提供了丰富的多语言语料。通过涵盖电子邮件、财务报表、IT支持工单等百余种金融文档格式,并标注了账户密码、信用卡号、姓名等29类个人身份信息,该数据集能够有效模拟真实业务场景中的隐私数据分布。其生成的文本平均长度超过1300字符,为模型理解上下文中的实体边界和语义关联创造了条件,尤其适用于训练端到端的序列标注模型,以提升在复杂金融文档中识别敏感信息的准确率。
解决学术问题
该数据集主要应对金融文本处理中隐私数据识别的学术挑战。传统研究常受限于真实敏感数据的获取困难与合规风险,导致模型泛化能力不足。本数据集通过合成技术生成包含多语言、多文档类型的标注数据,为学术界提供了安全且规模化的实验基础。它助力解决命名实体识别在跨领域、跨语言场景下的迁移学习问题,并为去标识化系统的评估建立了标准化基准,推动了隐私计算与自然语言处理交叉领域的方法创新。
实际应用
在金融行业的实际运营中,该数据集可直接用于开发和测试隐私数据扫描与脱敏系统。银行与金融机构可借助其训练定制化的实体识别模型,以自动检测客户通信、交易记录或合同文件中的敏感信息,确保符合GDPR等数据保护法规。同时,该数据集支持多语言文档处理,能够满足跨国企业的合规需求,为构建自动化数据治理流程、降低人工审核成本提供了可靠的技术支撑。
数据集最近研究
最新研究方向
在金融数据隐私保护领域,合成数据生成技术正成为前沿研究热点。gretelai/synthetic_pii_finance_multilingual数据集以其多语言、全文档格式的合成金融文本,为个人可识别信息检测与去标识化研究提供了关键资源。该数据集推动了基于大语言模型的命名实体识别系统优化,特别是在跨语言PII标注与金融文档结构理解方面展现出重要价值。伴随全球数据隐私法规的强化,此类合成数据集助力开发更鲁棒的隐私计算方案,减少真实敏感数据的使用风险,为金融行业合规技术创新奠定基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作