gretelai/synthetic_pii_finance_multilingual

Name: gretelai/synthetic_pii_finance_multilingual
Creator: gretelai
Published: 2024-06-11 03:00:20
License: 暂无描述

Hugging Face2024-06-11 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/gretelai/synthetic_pii_finance_multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含个人身份信息（PII）的合成金融文档数据集，支持多种语言（英语、法语、德语、荷兰语、西班牙语、意大利语）。数据集的主要用途包括训练NER模型检测和标记PII、测试PII扫描系统、评估去识别系统的性能以及开发和测试金融行业的数据隐私解决方案。数据集包含55,940条记录，分为50,776条训练记录和5,164条测试记录，涵盖了100种不同的金融文档格式，每种格式有20个特定子类型。数据集中的PII类型包括29种常见的金融行业PII类型，文档平均长度为1,357字符。数据集通过Gretel Navigator生成，使用了多个LLM模型进行数据生成和验证，并通过LLM-as-a-Judge技术进行质量评估。

This dataset is a synthetic financial document dataset containing personally identifiable information (PII), supporting multiple languages including English, French, German, Dutch, Spanish, and Italian. Its primary applications include training named entity recognition (NER) models to detect and tag PII, testing PII scanning systems, evaluating the performance of de-identification systems, as well as developing and testing data privacy solutions for the financial industry. The dataset consists of 55,940 records in total, split into 50,776 training records and 5,164 test records. It covers 100 distinct financial document formats, with 20 specific subtypes for each format. The dataset includes 29 common PII types specific to the financial industry, and the average length of the documents is 1,357 characters. This dataset was generated via Gretel Navigator, with multiple large language models (LLMs) used for data generation and validation, and quality assessment conducted using the LLM-as-a-Judge technique.

提供机构：

gretelai

原始信息汇总

数据集概述

基本信息

语言: 英语、法语、德语、荷兰语、西班牙语、意大利语
许可: Apache 2.0
大小类别: 10K<n<100K
任务类别: 文本分类、填充掩码、标记分类

数据集结构

特征

level_0: int64
index: int64
document_type: string
document_description: string
expanded_type: string
expanded_description: string
language: string
language_description: string
domain: string
generated_text: string
pii_spans: string
conformance_score: int64
quality_score: int64
toxicity_score: int64
bias_score: int64
groundedness_score: int64

分割

训练集: 50346条记录，106395754字节
测试集: 5594条记录，11921618字节

下载和数据集大小

下载大小: 53799552字节
数据集大小: 118317372字节

配置

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*

数据集内容

记录总数: 55,940条
- 训练集: 50,776条
- 测试集: 5,164条
文档格式: 覆盖100种不同的金融文档格式，每种格式有20个特定子类型
PII类型: 29种不同的PII类型
文档长度: 平均长度为1,357个字符
多语言支持: 英语、西班牙语、瑞典语、德语、意大利语、荷兰语、法语

语言支持

英语: 28,910文档
西班牙语: 4,609文档
瑞典语: 4,543文档
德语: 4,530文档
意大利语: 4,473文档
荷兰语: 4,449文档
法语: 4,426文档

PII类型分布

PII类型	训练集	测试集
account_pin	1266	143
api_key	922	91
bank_routing_number	1452	158
bban	1477	166
company	56338	6342
credit_card_number	1224	120
credit_card_security_code	1275	160
customer_id	1823	195
date	75830	8469
date_of_birth	2339	250
date_time	767	89
driver_license_number	1269	140
email	12914	1422
employee_id	1696	175
first_name	2565	279
iban	1814	203
ipv4	1591	164
ipv6	1191	134
last_name	1594	215
local_latlng	802	97
name	89642	10318
passport_number	1426	136
password	789	101
phone_number	8277	946
ssn	1313	153
street_address	37845	4307
swift_bic_code	1917	227
time	15735	1746
user_name	906	71

数据集生成

文档生成: 基于指定的文档类型和描述生成合成金融文档，包括PII类型。
PII标签: 识别并标记生成文档中的PII元素。
验证和额外PII检测: 使用Gliner NER库验证和检测额外的PII。
人机交互: 使用提供的笔记本和可视化工具检查和添加合成记录到训练集。
LLM-as-a-Judge: 使用LLM-as-a-Judge技术根据特定标准评估和过滤合成数据。

数据集细节

字段

document_type: 文档类型
document_description: 文档描述
expanded_type: 文档子类型
expanded_description: 子类型详细描述
language: 语言
language_description: 语言描述
generated_text: 生成文本
pii_spans: PII跨度列表
conformance_score: 一致性得分
quality_score: 质量得分
toxicity_score: 毒性得分
bias_score: 偏见得分
groundedness_score: 事实基础得分

示例

json { "document_type": "FpML", "document_description": "A standard for representing data concerning financial derivatives, including trade capture, confirmation, and valuation, often used in electronic trading and risk management.", "expanded_type": "Inflation Swaps", "expanded_description": "To generate synthetic data for Inflation Swaps, define the reference index, notional amount, payment frequency, and inflation assumptions. Simulate inflation rates and corresponding cash flows under different economic conditions and inflation scenarios. Populate the dataset with the simulated cash flows and inflation swap terms to capture a wide range of inflation-related risk exposures.", "language": "English", "language_description": "English language as spoken in the United States, the UK, or Canada", "domain": "finance", "generated_text": "<?xml version="1.0" encoding="UTF-8"?> <fx:message xmlns:fx="http://www.fixprotocol.org/FpML-5-5" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.fixprotocol.org/FpML-5-5 http://www.fixprotocol.org/fixml/schema/FpML-5-5-0.xsd"> <header> <party id="sender"> <name>Castillo Ltd</name> </party> <party id="target"> <name>Counterparty Inc.</name> </party> <sentDate>2022-05-12</sentDate> </header> <body> <trade> <tradeId>20220512-1001</tradeId> <product> <productType>4</productType> <swap> <inflationSwap> <referenceIndex> <index> <name>Consumer Price Index</name> <currency>USD</currency> </index> </referenceIndex> <notionalAmount currency="USD">10000000</notionalAmount> <paymentFrequency>2</paymentFrequency> <inflationAssumptions> <indexTenor>1Y</indexTenor> <indexTenor>2Y</indexTenor> <indexTenor>5Y</indexTenor> </inflationAssumptions> </inflationSwap> </swap> </product> <partyTradeRole> <partyRef id="sender"/> <tradeRole>1</tradeRole> </partyTradeRole> <partyTradeRole> <partyRef id="target"/> <tradeRole>2</tradeRole> </partyTradeRole> ", "pii_spans": [ {"start": 342, "end": 354, "label": "company"}, {"start": 418, "end": 435, "label": "company"}, {"start": 474, "end": 484, "label": "date"} ], "conformance_score": 80.0, "quality_score": 95.0, "toxicity_score": 0.0, "bias_score": 0.0, "groundedness_score": 90.0 }

数据质量评估

一致性得分: 0-100，表示生成文本与提供标签和描述的一致性
质量得分: 0-100，基于语法正确性、连贯性和相关性
毒性得分: 0-100，表示生成文本中的毒性内容
偏见得分: 0-100，表示生成文本中的无意偏见
事实基础得分: 0-100，表示生成文本的事实正确性

LLM-as-a-Judge结果

记录中，毒性得分或偏见得分高于20，或事实基础得分、质量得分、一致性得分低于80的记录被移除。

搜集汇总

数据集介绍

构建方式

在金融数据隐私保护领域，合成数据生成技术为模型训练提供了安全可靠的资源。本数据集采用Gretel Navigator这一基于智能体的复合人工智能系统，通过精细化的流程构建而成。首先，系统利用经过金融行业数据微调的大型语言模型，生成涵盖100种金融文档格式的完整文本，并嵌入29类合成个人身份信息。随后，结合Gliner命名实体识别库对PII跨度进行自动化标注与验证，辅以LLM-as-a-Judge技术对生成内容进行多维度质量评分，最终通过人工抽样检查确保数据可靠性，有效避免了真实敏感信息的泄露风险。

使用方法

针对金融隐私计算的实际需求，本数据集支持多层次的模型开发与评估流程。研究者可直接加载标准化数据分割，利用标注的PII跨度训练命名实体识别模型，或构建端到端的隐私信息检测系统。数据集内嵌的质量评分体系支持对生成模型进行多维评估，包括文本合规性、偏见控制等关键指标。对于数据脱敏技术研发，可通过替换标注实体进行掩码训练，亦可基于多语言文档开展跨文化隐私保护策略比较研究。所有数据均采用Apache 2.0协议，确保学术与工业应用的合规性。

背景与挑战

背景概述

在金融数据隐私与安全领域，合成数据生成技术为解决敏感信息保护与模型训练需求之间的矛盾提供了创新路径。由Gretel AI于2024年发布的gretelai/synthetic_pii_finance_multilingual数据集，旨在构建一个包含多语言金融文档与个人可识别信息（PII）标注的大规模合成资源。该数据集依托Gretel Navigator复合人工智能系统生成，覆盖英语、法语、德语等七种语言，囊括100种金融文档格式及其20种子类型，共计包含29类PII实体。其核心研究问题聚焦于如何在避免真实隐私泄露的前提下，为命名实体识别、隐私扫描系统评估及去标识化技术开发提供高质量、多样化的训练与测试基准。该资源的推出显著缓解了金融领域因数据敏感性导致的公开数据稀缺困境，为隐私保护计算与自然语言处理技术的交叉研究注入了新的活力。

当前挑战

该数据集致力于应对金融文档中个人可识别信息检测与保护的复杂挑战。在领域问题层面，金融文本通常具有专业术语密集、结构异构及多语言交织的特点，使得PII实体边界模糊、语境依赖性强，传统模型在此类场景下的泛化能力与准确率面临严峻考验。构建过程中的挑战亦不容忽视：合成数据的真实性需在语法连贯、领域知识准确与隐私安全间取得平衡；PII标注的完整性易受生成模型偏差与命名实体识别工具误差的影响，可能导致假阴性或假阳性标注；此外，多语言文档的生成与质量评估需克服语言特性差异与文化语境适配的难题，确保各语言子集在数据分布与质量指标上的一致性。

常用场景

经典使用场景

在金融文本隐私保护领域，该数据集为命名实体识别模型的训练提供了丰富的多语言语料。通过涵盖电子邮件、财务报表、IT支持工单等百余种金融文档格式，并标注了账户密码、信用卡号、姓名等29类个人身份信息，该数据集能够有效模拟真实业务场景中的隐私数据分布。其生成的文本平均长度超过1300字符，为模型理解上下文中的实体边界和语义关联创造了条件，尤其适用于训练端到端的序列标注模型，以提升在复杂金融文档中识别敏感信息的准确率。

解决学术问题

该数据集主要应对金融文本处理中隐私数据识别的学术挑战。传统研究常受限于真实敏感数据的获取困难与合规风险，导致模型泛化能力不足。本数据集通过合成技术生成包含多语言、多文档类型的标注数据，为学术界提供了安全且规模化的实验基础。它助力解决命名实体识别在跨领域、跨语言场景下的迁移学习问题，并为去标识化系统的评估建立了标准化基准，推动了隐私计算与自然语言处理交叉领域的方法创新。

实际应用

在金融行业的实际运营中，该数据集可直接用于开发和测试隐私数据扫描与脱敏系统。银行与金融机构可借助其训练定制化的实体识别模型，以自动检测客户通信、交易记录或合同文件中的敏感信息，确保符合GDPR等数据保护法规。同时，该数据集支持多语言文档处理，能够满足跨国企业的合规需求，为构建自动化数据治理流程、降低人工审核成本提供了可靠的技术支撑。

数据集最近研究