five

Nachammai41/remittance-fraud-narratives

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Nachammai41/remittance-fraud-narratives
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: [] language: - en language_creators: [] license: [] multilinguality: - monolingual pretty_name: 'remittance_fraud_narratives' size_categories: - n<1K source_datasets: - 'original' tags: - adaption - instruction-tuning - writing-editing-communication task_categories: [] task_ids: [] --- ![banner](https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/2a04d1da-fe95-4804-ae2a-b4b7062d9043.png) This dataset is a remastered version prepared using [Adaption's](https://adaptionlabs.ai/app/auth) Adaptive Data platform. # remittance_fraud_narratives This dataset contains prompts designed to generate first-person narratives about financial fraud targeting immigrant communities via cross-border remittance services. Each entry specifies details such as the fraud vector, financial instrument, transaction amount, sender demographics, and language context. The samples currently show null completions, indicating this is a prompt collection for generating synthetic victim or participant stories in multiple languages. ### Dataset size There are 99 data points in this dataset. This is an instruction tuning dataset. ### Quality of Remastered Dataset The final quality is A, with a relative quality improvement of 86.0%. ### Domain - Writing-editing-communication (100%) ### Language - English (100%) ### Tone - Anecdotal (100%) ### Evaluation Results - **Quality Gains:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/278a2951-fc5b-49f3-b78d-fcc2e75b7753.png" alt="QualityGains" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **Grade Improvement:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/3995e54b-dc04-4e62-a109-127e7ca8ec39.png" alt="Grade" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **Percentile Chart:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/a968a6d6-d46d-456b-a738-65b62c0f215a.png" alt="Percentile Chart" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> # Underserved Financial Fraud Dataset ### Synthetic fraud detection data for underrepresented_communities **Created with Adaptive Data by Adaption** | CC BY 4.0 | 5 languages --- ## What This Is A synthetic financial fraud dataset covering **four underserved community archetypes** — populations that rely on remittance transfers, gig economy payouts, prepaid cards, and ITIN-based transactions. These communities are disproportionately targeted by fraud, yet no open-source fraud dataset has ever modeled their financial behavior. This dataset fills that gap. --- ## The Four Archetypes | Archetype | Who | Fraud Vectors | Languages | |---|---|---|---| | **Remittance Sender** | Immigrants sending money cross-border via Western Union, Remitly, MoneyGram | Emergency call scams, fake exchange rate bonuses, interception | es, ht, yo, hi, en | | **Gig Worker** | Uber, DoorDash, Instacart workers paid via CashApp, Venmo | Account takeover, SIM swap, fake platform support calls | en, hi, vi, es, yo | | **Unbanked Cash-In User** | Populations using prepaid cards and retail kiosks | Predatory micro-loans, load-fee scams, fake utility kiosks | en, es, vi, yo, hi | | **ITIN Entrepreneur** | Immigrant small business owners with no SSN | Synthetic identity fraud, fake tax returns, mule accounts | en, es, hi, ta, vi | ## Languages `en` English &nbsp;|&nbsp; `es` Spanish &nbsp;|&nbsp; `hi` Hinglish &nbsp;|&nbsp; `ht` Haitian Creole &nbsp;|&nbsp; `yo` Yoruba &nbsp;|&nbsp; `vi` Vietnamese &nbsp;|&nbsp; `ta` Tamil &nbsp;|&nbsp; `ta-en` Tamil-English --- ## What Makes It Different **No existing fraud dataset covers this population.** PaySim simulates generic mobile money. Sparkov models middle-class credit cards. IEEE-CIS captures e-commerce. None remittance kiosks, gig payouts, or ITIN-linked accounts. **Generated with diffusion, not rules.** Tabular data generated using Tab-DDPM (denoising diffusion for tabular data) — learns joint correlations across behavioral features, not just independent column sampling. Trained on A100 GPU via Google Colab Pro. **Multilingual narrative text.** Every fraud transaction has a `narrative_text` field — the scam message or fraud description in the community's language. Generated by Adaptive Data by Adaption. Quality score improved from E (5.0) to A (9.2–9.4). **Reasoning traces.** 390 chain-of-thought fraud analysis examples — step-by-step investigator reasoning grounded in community-specific fraud signals. No existing fraud dataset includes this. Built for fine-tuning financial language models (FinBERT, Gemma). --- ## How It Was Built ``` 1. Scrape 1,040 real fraud narratives from CFPB, BBB Scam Tracker, and Reddit archive (Pullpush.io) 2. Profile Behavioral distributions per archetype derived from scraped narratives — amounts, channels, corridors, fraud vectors, language mix 3. Generate Tab-DDPM trains on 5,000 seed rows per archetype, learns joint feature correlations, generates 5,000 synthetic transactions per archetype 4. Narrate Adaptive Data by Adaption fills narrative_text in 8 languages per transaction's fraud context 5. Trace 390 reasoning traces generated — chain-of-thought fraud analysis for fine-tuning use ``` --- ## Schema (Key Fields) | Field | Type | Description | |---|---|---| | `transaction_id` | uuid | Unique identifier | | `archetype` | categorical | remittance / gig_worker / unbanked / itin | | `amount_usd` | float | Transaction amount | | `channel` | categorical | retail_kiosk / mobile_app / p2p / bank_wire | | `fraud_vector` | categorical | Specific scam type | | `is_fraud` | bool | Ground truth label | | `fraud_confidence` | float | 0.0–1.0 label confidence | | `narrative_text` | string | Scam description in community language | | `narrative_language` | categorical | ISO 639-1 language code | | `reasoning_trace` | string | Chain-of-thought fraud analysis (sampled rows) | ## Intended Use - Training fraud detection models on underserved community transaction patterns - Benchmarking existing models (IEEE-CIS trained) against this population - Fine-tuning financial language models on multilingual fraud narratives - Research into AI fairness and financial inclusion - NLP research on under-resourced financial language --- ## What This Is Not This is a **fully synthetic** dataset. No real transaction data. No PII. Behavioral distributions are informed by public fraud narratives and World Bank remittance corridor data — not empirically measured transaction logs. Like all synthetic fraud datasets (PaySim, Sparkov, Cifer-AF), ground truth validation against real data is not possible due to privacy constraints. --- ## Origin This dataset was created as part of the **Uncharted Data Challenge** by Adaption Labs (April 2026). It extends the [Fraud Detection Framework](https://github.com/nachammai779/Fraud-Detection-Framework---An-Agentic-RAG-Pipeline-with-Custom-Financial-SLM) — an Agentic RAG pipeline with a custom Financial SLM built on the IEEE-CIS dataset (AUC-ROC 0.9486). The underserved dataset enables direct benchmarking: how does a model trained on mainstream data perform on populations it has never seen? --- ## Citation ```bibtex @dataset{palaniappan2026underserved, author = {Palaniappan, Nachammai}, title = {Underserved Financial Fraud Dataset}, year = {2026}, publisher = {HuggingFace}, note = {Created with Adaptive Data by Adaption. Uncharted Data Challenge, Adaption Labs.}, url = {https://huggingface.co/datasets/nachammai779/underserved-financial-fraud} } ``` --- ## Credits - **Adaptive Data by Adaption** — Narrative generation and dataset enrichment - **Tab-DDPM** (Kotelnikov et al., 2022) — Tabular diffusion model - **CFPB** — Consumer Financial Protection Bureau public complaint database - **BBB Scam Tracker** — Better Business Bureau public scam reports - **Pullpush.io** — Reddit archive API --- *License: CC BY 4.0 — Free to use with attribution*

annotations_creators: [] language: - en language_creators: [] license: [] multilinguality: - monolingual pretty_name: 'remittance_fraud_narratives' size_categories: - n<1K source_datasets: - 'original' tags: - adaption - instruction-tuning - writing-editing-communication task_categories: [] task_ids: [] ![banner](https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/2a04d1da-fe95-4804-ae2a-b4b7062d9043.png) 本数据集为经重制的版本,依托Adaption(Adaption Labs)的Adaptive Data平台制作完成。 # 汇款欺诈叙事数据集 本数据集包含用于生成第一人称叙事的提示词,这类叙事围绕通过跨境汇款服务针对移民社区实施的金融欺诈展开。每条提示均包含欺诈手段、金融工具、交易金额、汇款者人口统计特征以及语言环境等细节。当前样本的补全结果为空,表明该数据集为一组提示词集合,用于生成多语种的虚构受害者或参与者故事。 ### 数据集规模 本数据集共包含99条数据,属于指令微调数据集。 ### 重制数据集质量 最终质量评级为A级,相对质量提升幅度达86.0%。 ### 应用领域 - 写作-编辑-沟通(占比100%) ### 语言 - 英语(占比100%) ### 语气 - 轶事式(占比100%) ### 评估结果 - **质量提升情况:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/278a2951-fc5b-49f3-b78d-fcc2e75b7753.png" alt="QualityGains" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **评级提升情况:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/3995e54b-dc04-4e62-a109-127e7ca8ec39.png" alt="Grade" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **百分位分布图:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/a968a6d6-d46d-456b-a738-65b62c0f215a.png" alt="Percentile Chart" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> # 服务不足群体金融欺诈数据集 ### 面向代表性不足社区的合成式欺诈检测数据集 **由Adaption的Adaptive Data平台制作** | 知识共享署名4.0(CC BY 4.0) | 覆盖5种语言 --- ## 数据集概述 本数据集为合成式金融欺诈数据集,覆盖**四类服务不足群体原型**——依赖跨境汇款、零工经济薪酬、预付卡以及ITIN(个人纳税人识别号,Individual Taxpayer Identification Number)交易的人群。这类群体成为欺诈目标的比例远超平均水平,但目前尚无开源欺诈数据集对其金融行为进行建模。本数据集填补了这一空白。 --- ## 四类群体原型 | 原型类别 | 目标人群 | 欺诈手段 | 支持语言 | |---|---|---|---| | **汇款发送者** | 通过西联汇款、Remitly、速汇金等渠道进行跨境汇款的移民 | 紧急呼叫诈骗、虚假汇率返利诈骗、汇款拦截诈骗 | es, ht, yo, hi, en | | **零工劳动者** | 通过CashApp、Venmo领取报酬的优步、DoorDash、Instacart平台零工 | 账户接管、SIM卡换绑、虚假平台客服呼叫诈骗 | en, hi, vi, es, yo | | **无银行账户现金充值用户** | 使用预付卡与零售服务点进行充值的人群 | 掠夺性小额贷款、充值手续费诈骗、虚假公用事业服务点诈骗 | en, es, vi, yo, hi | | **ITIN创业者** | 无社会安全号(Social Security Number,SSN)的移民小微企业主 | 合成身份欺诈、虚假纳税申报、傀儡账户诈骗 | en, es, hi, ta, vi | ## 支持语言 `en` 英语 | `es` 西班牙语 | `hi` 印式英语 | `ht` 海地克里奥尔语 | `yo` 约鲁巴语 | `vi` 越南语 | `ta` 泰米尔语 | `ta-en` 泰米尔语-英语 --- ## 本数据集的独特优势 **暂无同类公开数据集覆盖此类群体**:PaySim仅模拟通用移动货币交易,Sparkov针对中产阶级信用卡交易建模,IEEE-CIS数据集聚焦电子商务场景,均未覆盖汇款服务点、零工薪酬结算或ITIN关联账户的欺诈场景。 **基于扩散模型生成,而非规则模板**:表格数据通过Tab-DDPM(表格数据去噪扩散模型)生成,能够学习行为特征间的联合相关性,而非仅对单列进行独立采样。模型基于Google Colab Pro平台,在A100 GPU上完成训练。 **多语种叙事文本**:每笔欺诈交易均包含`narrative_text`字段,即使用目标社区语言撰写的诈骗话术或欺诈描述。由Adaption的Adaptive Data平台生成,质量评分从E级(5.0)提升至A级(9.2–9.4)。 **推理溯源信息**:包含390条思维链式欺诈分析示例,即基于社区专属欺诈特征的调查人员分步推理过程。目前尚无任何欺诈数据集包含此类内容,本数据集专为金融大语言模型(如FinBERT、Gemma)的微调设计。 --- ## 数据集构建流程 1. 数据爬取:从美国消费者金融保护局(CFPB,Consumer Financial Protection Bureau)、美国商业改进局(BBB,Better Business Bureau)欺诈追踪平台以及Reddit存档网站(Pullpush.io)爬取1040条真实欺诈叙事文本 2. 特征建模:基于爬取的叙事文本,提取各类原型的行为分布特征,包括交易金额、渠道、汇款走廊、欺诈手段与语言分布 3. 数据生成:针对每类原型,使用5000条种子数据训练Tab-DDPM模型,学习特征间的联合相关性,最终每类原型生成5000条合成交易数据 4. 叙事生成:由Adaption的Adaptive Data平台为每笔交易基于欺诈场景生成8种语言的`narrative_text`字段内容 5. 推理溯源:生成390条思维链式欺诈分析文本,用于模型微调 --- ## 数据Schema(核心字段) | 字段名 | 数据类型 | 字段说明 | |---|---|---| | `transaction_id` | 通用唯一识别码(UUID) | 唯一标识符 | | `archetype` | 分类变量 | 原型类别,可选值为remittance(汇款发送者)、gig_worker(零工劳动者)、unbanked(无银行账户用户)、itin(ITIN创业者) | | `amount_usd` | 浮点型 | 以美元计价的交易金额 | | `channel` | 分类变量 | 交易渠道,可选值为零售服务点、移动应用、P2P转账、银行电汇 | | `fraud_vector` | 分类变量 | 具体欺诈类型 | | `is_fraud` | 布尔型 | 欺诈标签(真实值) | | `fraud_confidence` | 浮点型 | 标签置信度,取值范围0.0–1.0 | | `narrative_text` | 字符串型 | 目标社区语言撰写的欺诈描述文本 | | `narrative_language` | 分类变量 | ISO 639-1标准语言代码 | | `reasoning_trace` | 字符串型 | 思维链式欺诈分析文本(仅部分样本包含) | ## 预期应用场景 - 针对服务不足群体的交易模式训练欺诈检测模型 - 基于本数据集对现有模型(如基于IEEE-CIS训练的模型)进行基准测试 - 基于多语种欺诈叙事文本微调金融大语言模型 - 开展AI公平性与金融包容性相关研究 - 针对资源匮乏的金融领域语言开展自然语言处理研究 --- ## 数据集局限性说明 本数据集为**完全合成生成**的数据集,不包含任何真实交易数据与个人可识别信息(Personally Identifiable Information,PII)。其行为分布特征基于公开欺诈叙事文本与世界银行汇款走廊数据构建,而非基于实测交易日志。与所有合成式欺诈数据集(如PaySim、Sparkov、Cifer-AF)一样,由于隐私限制,无法基于真实交易数据对本数据集的标签真实性进行验证。 --- ## 数据集起源 本数据集由Adaption Labs于2026年4月发起的**未知数据挑战赛(Uncharted Data Challenge)**中开发。本数据集扩展了[欺诈检测框架](https://github.com/nachammai779/Fraud-Detection-Framework---An-Agentic-RAG-Pipeline-with-Custom-Financial-SLM)——一个基于IEEE-CIS数据集构建的智能检索增强生成(Retrieval Augmented Generation,RAG)管道,搭载自定义金融大语言模型(AUC-ROC值为0.9486)。本服务不足群体数据集可用于直接基准测试:基于主流数据训练的模型在从未接触过的群体数据上表现如何? --- ## 引用格式 bibtex @dataset{palaniappan2026underserved, author = {Palaniappan, Nachammai}, title = {Underserved Financial Fraud Dataset}, year = {2026}, publisher = {HuggingFace}, note = {Created with Adaptive Data by Adaption. Uncharted Data Challenge, Adaption Labs.}, url = {https://huggingface.co/datasets/nachammai779/underserved-financial-fraud} } --- ## 致谢 - **Adaption的Adaptive Data平台**:负责叙事文本生成与数据集富集 - **Tab-DDPM(Kotelnikov等人,2022)**:表格数据扩散模型 - **美国消费者金融保护局(CFPB)**:公开投诉数据库 - **美国商业改进局(BBB)欺诈追踪平台**:公开欺诈报告数据库 - **Pullpush.io**:Reddit存档API --- *许可证:CC BY 4.0 — 标注来源即可自由使用*
提供机构:
Nachammai41
搜集汇总
数据集介绍
main_image_url
构建方式
在金融科技领域,针对移民社区等边缘群体的欺诈行为往往缺乏公开数据支持。本数据集通过系统化流程构建,首先从消费者金融保护局(CFPB)、商业改进局(BBB)诈骗追踪器及Reddit档案中收集了1,040条真实欺诈叙事,以此剖析不同社区原型的行为分布特征。随后,采用Tab-DDPM(表格去噪扩散概率模型)基于各原型的种子数据学习联合特征相关性,生成了合成交易记录。最后,借助Adaption的自适应数据平台,为每笔交易填充了多语言的叙事文本,并辅以390条链式思维推理轨迹,从而形成了结构完整、语境丰富的指令调优数据集。
使用方法
该数据集主要应用于训练针对边缘社区交易模式的欺诈检测模型,能够作为基准测试工具,评估基于主流数据训练的模型在新群体上的表现。研究人员可利用其多语言叙事文本微调金融领域的语言模型,如FinBERT或Gemma,以提升模型在跨文化语境下的理解能力。同时,数据集中的推理轨迹为链式思维训练提供了素材,支持可解释人工智能的研究,亦可用于探讨算法公平性与金融包容性等社会技术议题,推动相关领域的前沿探索。
背景与挑战
背景概述
在金融科技与人工智能交叉领域,针对边缘化社区的金融欺诈检测长期面临数据稀缺的困境。remittance-fraud-narratives数据集由Adaption Labs于2026年创建,作为'Uncharted Data Challenge'项目的一部分,旨在填补这一空白。该数据集聚焦于跨境汇款、零工经济、预付卡及ITIN交易等四大弱势群体原型,通过合成数据生成技术,模拟了针对移民社区等群体的金融欺诈叙事。其核心研究问题在于如何构建能够反映特定社区金融行为模式的多语言欺诈数据集,以支持公平、包容的金融欺诈检测模型开发,对推动金融包容性与AI公平性研究具有重要价值。
当前挑战
该数据集致力于解决金融欺诈检测领域中对弱势群体代表性不足的挑战,具体包括如何准确捕捉不同社区特有的交易模式、欺诈手段及多语言语境。在构建过程中,面临的主要挑战源于真实交易数据的隐私限制,迫使研究团队依赖公开的欺诈叙事与报告进行行为分布建模;同时,利用Tab-DDPM等生成式模型合成数据时,需确保合成数据在保持统计相关性的同时,避免引入偏差或失真。此外,为欺诈叙事生成高质量、符合文化语境的多语言文本,并辅以推理轨迹,也对数据生成与标注流程提出了较高要求。
常用场景
经典使用场景
在金融科技与欺诈检测领域,该数据集为研究跨境汇款欺诈提供了关键资源。其核心应用场景在于生成针对移民社区的第一人称欺诈叙事,这些叙事详细描述了欺诈手段、金融工具、交易金额及发送者人口统计信息。通过合成多语言受害者故事,数据集支持指令调优任务,助力模型学习识别和模拟欺诈行为模式,为构建更具包容性的欺诈检测系统奠定基础。
解决学术问题
该数据集致力于解决金融欺诈研究中长期存在的代表性不足问题。传统欺诈数据集多聚焦于主流金融行为,忽略了依赖汇款服务、零工经济支付等弱势群体的欺诈模式。通过引入合成数据生成技术,如Tab-DDPM扩散模型,数据集填补了学术研究在跨文化、多语言欺诈行为建模上的空白,推动了人工智能公平性与金融包容性领域的理论探索。
实际应用
在实际应用中,该数据集为金融机构和科技公司提供了训练欺诈检测模型的宝贵素材。其涵盖的汇款发送者、零工工作者、无银行账户用户及ITIN企业家等四类弱势群体欺诈模式,可直接用于优化现有检测系统,提升对多语言欺诈叙事的识别能力。此外,数据集支持金融语言模型的微调,助力开发更精准的风险评估工具,促进全球金融服务的公平接入。
数据集最近研究
最新研究方向
在金融科技与人工智能交叉领域,针对移民社群跨境汇款欺诈的数据集研究正聚焦于合成数据生成与多语言叙事分析的前沿方向。该数据集通过Tab-DDPM扩散模型模拟了汇款发送者、零工工作者等弱势群体的交易行为特征,并融合了西班牙语、约鲁巴语等八种语言的欺诈叙事文本,填补了传统欺诈检测模型在少数群体数据覆盖上的空白。当前研究热点在于利用此类合成数据训练金融语言模型,通过链式思维推理痕迹增强模型对跨文化欺诈模式的解释能力,推动人工智能在金融包容性与公平性领域的应用,为全球反欺诈系统的多语言适应性提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作