five

redasers/difraud

收藏
Hugging Face2024-07-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/redasers/difraud
下载链接
链接失效反馈
官方服务:
资源简介:
DIFrauD数据集是一个领域无关的欺诈检测基准,包含超过95,854个来自多个独立领域的欺骗性和真实文本样本。该数据集旨在代表当今仍未解决的各种安全挑战。它涵盖了七个领域,每个领域都转化为二元分类问题,其中标签指示文本是否具有欺骗性。数据集中的每个样本都包含一个text字段和一个label字段,后者指示文本是否具有欺骗性(1表示欺骗性,0表示非欺骗性)。数据集已经过清洗和处理,以确保数据质量,并根据MIT许可证发布。

DIFrauD数据集是一个领域无关的欺诈检测基准,包含超过95,854个来自多个独立领域的欺骗性和真实文本样本。该数据集旨在代表当今仍未解决的各种安全挑战。它涵盖了七个领域,每个领域都转化为二元分类问题,其中标签指示文本是否具有欺骗性。数据集中的每个样本都包含一个text字段和一个label字段,后者指示文本是否具有欺骗性(1表示欺骗性,0表示非欺骗性)。数据集已经过清洗和处理,以确保数据质量,并根据MIT许可证发布。
提供机构:
redasers
原始信息汇总

DIFrauD - 领域无关欺诈检测基准

数据集概述

语言: 英语
许可证: MIT
数据量: 10K<n<100K
多语言性: 单语
任务类别: 文本分类、零样本分类
标签: 欺诈检测、欺骗检测、钓鱼、假新闻、基准、意见垃圾邮件、多领域

数据集配置

数据集包含以下配置及其对应的数据文件:

  • Fake News

    • 训练集: fake_news/train.jsonl
    • 测试集: fake_news/test.jsonl
    • 验证集: fake_news/validation.jsonl
  • Job Scams

    • 训练集: job_scams/train.jsonl
    • 测试集: job_scams/test.jsonl
    • 验证集: job_scams/validation.jsonl
  • Phishing

    • 训练集: phishing/train.jsonl
    • 测试集: phishing/test.jsonl
    • 验证集: phishing/validation.jsonl
  • Political Statements

    • 训练集: political_statements/train.jsonl
    • 测试集: political_statements/test.jsonl
    • 验证集: political_statements/validation.jsonl
  • Product Reviews

    • 训练集: product_reviews/train.jsonl
    • 测试集: product_reviews/test.jsonl
    • 验证集: product_reviews/validation.jsonl
  • SMS

    • 训练集: sms/train.jsonl
    • 测试集: sms/test.jsonl
    • 验证集: sms/validation.jsonl
  • Twitter Rumours

    • 训练集: twitter_rumours/train.jsonl
    • 测试集: twitter_rumours/test.jsonl
    • 验证集: twitter_rumours/validation.jsonl

数据集详细信息

总样本数: 95854
欺骗性样本数: 37282
非欺骗性样本数: 58572

数据集包含7个独立领域:

  1. Phishing

    • 总数: 15272
    • 欺骗性: 6074
    • 非欺骗性: 9198
  2. Fake News

    • 总数: 20456
    • 欺骗性: 8832
    • 非欺骗性: 11624
  3. Political Statements

    • 总数: 12497
    • 欺骗性: 8042
    • 非欺骗性: 4455
  4. Product Reviews

    • 总数: 20971
    • 欺骗性: 10492
    • 非欺骗性: 10479
  5. Job Scams

    • 总数: 14295
    • 欺骗性: 599
    • 非欺骗性: 13696
  6. SMS

    • 总数: 6574
    • 欺骗性: 1274
    • 非欺骗性: 5300
  7. Twitter Rumours

    • 总数: 5789
    • 欺骗性: 1969
    • 非欺骗性: 3820

每个子目录/配置包含三个文件:train.jsonl, test.jsonl, 和 validation.jsonl,分别包含训练集、测试集和验证集。

分割比例:

  • 训练集: 80%
  • 测试集: 10%
  • 验证集: 10%

采样过程: 随机采样,种子为42,按领域分层采样。

字段

每个jsonl文件包含两个字段:

  • text: 字符串,包含欺骗性或真实性的声明或主张。
  • label: 整数,表示文本是否欺骗性,1表示欺骗性,0表示非欺骗性。

处理和清洗

每个数据集都经过Cleanlab清洗,移除了非英语条目、解析错误条目、空条目、重复条目、长度小于2个字符或超过1000000个字符的条目。标签经过手动校正和修正。

布局

数据集目录布局如下:

difraud fake_news/ train.jsonl test.jsonl validation.jsonl README.md ... sms/ train.jsonl test.jsonl validation.jsonl README.md README.md LICENSE.txt

许可证

数据集发布在MIT许可证下,可以自由使用和修改。

引用

如果该数据集对你的研究有用,请考虑引用。

搜集汇总
数据集介绍
main_image_url
构建方式
在欺诈检测领域,构建具有广泛代表性的数据集对于模型泛化能力至关重要。DIFrauD数据集通过整合七个独立领域的真实欺诈文本,包括网络钓鱼、虚假新闻、政治声明、产品评论、招聘诈骗、短信欺诈及推特谣言,形成了涵盖95,854个样本的综合性语料库。其构建过程涉及从多个现有数据源中筛选、清洗与重标注,采用Cleanlab工具进行数据质量优化,移除非英语条目、重复项及异常值,并确保文本长度与编码规范。每个领域的数据均经过分层随机抽样,以80%-10%-10%的比例划分为训练集、验证集与测试集,保证了数据分布的均衡性与评估的可靠性。
特点
DIFrauD数据集的核心特点在于其领域独立性与多样性,覆盖了欺诈检测中多个关键场景,文本风格与句法结构差异显著,但均围绕恶意欺骗意图展开。数据集包含37,282个欺诈样本与58,572个非欺诈样本,部分领域存在类别不平衡现象,如招聘诈骗中欺诈样本仅占少数,这为模型处理现实世界的不均衡数据提供了挑战。所有样本均以统一格式存储,包含文本内容与二进制标签(欺诈为1,非欺诈为0),并经过严格的Unicode规范化与空白字符处理,确保了数据的一致性与可处理性。
使用方法
该数据集适用于文本分类与零样本分类任务,尤其适合用于训练跨领域欺诈检测模型。研究人员可通过HuggingFace平台直接加载特定领域的配置(如fake_news或phishing),获取对应的JSONL格式文件,其中包含训练、验证与测试分割。每个样本的text字段提供原始文本,label字段指示欺诈与否。使用前建议参考各子目录中的详细文档,了解领域特定信息与预处理细节。数据集采用MIT许可,支持自由修改与分发,适用于学术研究与工业应用,如构建自适应欺诈检测系统或评估模型在未知领域的泛化性能。
背景与挑战
背景概述
在数字时代,欺诈与欺骗性内容的泛滥已成为网络安全领域的核心挑战,亟需构建能够跨领域识别恶意文本的通用检测模型。为此,休斯顿大学ReDAS实验室的研究人员Dainis Boumber与Rakesh Verma于2023年推出了DIFrauD数据集,旨在为领域无关的欺诈检测提供基准支持。该数据集整合了钓鱼邮件、虚假新闻、政治声明、产品评论、招聘诈骗、短信欺诈及推特谣言等七个独立领域的真实文本,共计超过95,854条样本,其中37,282条被标注为欺骗性内容。通过严格的清洗与标注流程,DIFrauD不仅为研究者提供了高质量的跨领域语料,更推动了欺诈检测模型从单一任务向通用化方向的演进,对提升网络空间安全防护能力具有显著意义。
当前挑战
DIFrauD数据集致力于解决领域无关欺诈检测这一复杂问题,其核心挑战在于欺骗性文本在语言风格、语义意图及领域背景上存在高度异质性,例如钓鱼邮件的诱导性用语与虚假新闻的捏造事实之间缺乏统一特征,这要求模型必须捕捉深层次、内容无关的欺骗模式。在构建过程中,研究人员面临多重困难:首先,原始数据来源多样,部分数据集标签定义不一致或存在错误,需进行人工校正与重标注,如政治声明数据集需依据最新研究调整标签映射规则;其次,各领域数据分布极不均衡,例如招聘诈骗数据中欺骗性样本仅占4%,可能导致模型偏见;此外,文本清洗需处理多语言混杂、格式异常及重复样本等问题,确保数据质量与一致性成为关键挑战。
常用场景
经典使用场景
在欺诈检测领域,DIFrauD数据集作为一项多领域基准,其经典使用场景聚焦于训练和评估跨领域欺诈检测模型。该数据集整合了钓鱼邮件、虚假新闻、政治声明、产品评论、招聘诈骗、短信欺诈及推特谣言等七个独立领域的文本数据,为研究者提供了一个统一的实验平台。通过这一数据集,学者能够系统性地探索欺诈文本在语言风格、句法结构及欺骗意图上的共性特征,进而验证模型在不同欺诈场景下的泛化能力与鲁棒性。
解决学术问题
DIFrauD数据集的核心学术价值在于其致力于解决欺诈检测中领域依赖性的瓶颈问题。传统研究往往针对单一欺诈类型构建专用数据集与检测器,导致模型难以适应新兴欺诈形式。该数据集通过汇集多领域真实欺诈样本,为探究欺诈是否存在跨领域的内容无关风格痕迹提供了实证基础。其意义在于推动领域无关欺诈检测理论的发展,促进通用性检测框架的构建,从而降低针对新型欺诈攻击从头构建数据与模型的高昂成本。
衍生相关工作
围绕DIFrauD数据集,已衍生出一系列重要的学术研究工作。其前身GDD数据集的研究初步探讨了欺诈的领域无关风格痕迹问题。后续研究,如2024年LREC-COLING会议上发表的论文,提出了面向欺诈检测的领域无关适配器架构,并利用DIFrauD进行了广泛评估。此外,该数据集也支撑了关于软领域迁移的特征增强方法、基于深度学习的虚假声明分类模型等探索,持续推动着跨领域欺诈检测技术在模型架构、迁移学习与特征表示等方面的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作