difraud/difraud
收藏Hugging Face2023-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/difraud/difraud
下载链接
链接失效反馈官方服务:
资源简介:
DIFrauD(领域独立欺诈检测基准)是一个包含95,854个样本的标注语料库,涵盖了七个独立领域的欺骗和真实文本。这些领域包括钓鱼邮件、假新闻、政治声明、产品评论、招聘诈骗、短信和Twitter谣言。每个任务都被转换为一个二元分类问题,其中y是欺骗的指示器。数据集经过清理和标准化处理,确保文本的有效性和一致性。
DIFrauD (Domain-Independent Fraud Detection Benchmark) is an annotated corpus consisting of 95,854 samples, covering deceptive and genuine texts from seven independent domains. These domains include phishing emails, fake news, political statements, product reviews, recruitment scams, short message service (SMS) texts, and Twitter rumors. Each task is formulated as a binary classification task, where y serves as the indicator of deception. The dataset has been cleaned and standardized to ensure the validity and consistency of the texts.
提供机构:
difraud
原始信息汇总
DIFrauD - Domain Independent Fraud Detection Benchmark
数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 数据量: 10K < n < 100K
- 多语言性: 单语种
- 任务类别: 文本分类, 零样本分类
- 标签: 欺诈检测, 欺骗检测, 钓鱼, 假新闻, 基准, 意见垃圾邮件, 多领域
数据集详情
- 总样本数: 95,854
- 欺骗性样本数: 37,282
- 非欺骗性样本数: 58,572
- 领域数量: 7
领域分类
-
Phishing
- 总数: 15,272
- 欺骗性: 6,074
- 非欺骗性: 9,198
-
Fake News
- 总数: 20,456
- 欺骗性: 8,832
- 非欺骗性: 11,624
-
Political Statements
- 总数: 12,497
- 欺骗性: 8,042
- 非欺骗性: 4,455
-
Product Reviews
- 总数: 20,971
- 欺骗性: 10,492
- 非欺骗性: 10,479
-
Job Scams
- 总数: 14,295
- 欺骗性: 599
- 非欺骗性: 13,696
-
SMS
- 总数: 6,574
- 欺骗性: 1,274
- 非欺骗性: 5,300
-
Twitter Rumours
- 总数: 5,789
- 欺骗性: 1,969
- 非欺骗性: 3,820
数据文件结构
每个领域/数据集分为三个文件:
train.jsonltest.jsonlvalidation.jsonl
数据分割
- 训练集: 80%
- 测试集: 10%
- 验证集: 10%
- 采样过程: 随机,种子=42,按标签分层
数据字段
每个jsonl文件包含两个字段:
text(字符串)label(整数)
label字段表示文本是否欺骗性:
1: 欺骗性0: 非欺骗性
数据处理和清洗
- 使用Cleanlab进行清洗
- 移除非英语条目、解析错误条目、空条目、重复条目
- 条目长度限制在2到1,000,000字符之间
- 标签手动校正
- 空白、引号、项目符号、Unicode标准化
许可证
- MIT许可证
搜集汇总
数据集介绍

构建方式
DIFrauD数据集的构建基于多个独立领域的真实数据,涵盖了七种不同的欺诈检测任务,包括钓鱼邮件、假新闻、政治声明、产品评论、工作诈骗、短信和推特谣言。每个任务的数据集均经过精心筛选和处理,确保样本的有效性和代表性。数据集的构建过程中,采用了Cleanlab进行数据清洗,去除了非英语条目、解析错误条目、空条目、重复条目以及长度异常的条目。此外,标签经过人工校对,确保准确性。最终,数据集被划分为训练集、测试集和验证集,比例为80%、10%和10%,采用随机抽样并保持标签的均衡分布。
特点
DIFrauD数据集的主要特点在于其跨领域的多样性和高质量的数据处理。该数据集包含了七种不同领域的欺诈检测任务,每个任务的数据集都经过严格的清洗和校对,确保数据的准确性和可靠性。此外,数据集的标签体系简洁明了,采用二分类方式,便于模型的训练和评估。数据集的多样性不仅有助于提升模型的泛化能力,也为跨领域的欺诈检测研究提供了丰富的资源。
使用方法
使用DIFrauD数据集时,用户可以根据具体的研究需求选择相应的子数据集进行实验。每个子数据集均包含训练集、测试集和验证集,用户可以直接加载这些数据进行模型训练和评估。数据集的格式为jsonl,包含两个字段:'text'和'label',分别表示文本内容和标签。用户可以通过HuggingFace的datasets库轻松加载和处理数据。此外,数据集的README文件提供了详细的文档和使用说明,帮助用户更好地理解和利用数据集。
背景与挑战
背景概述
DIFrauD(Domain-Independent Fraud Detection benchmark)数据集由多个独立领域的欺诈检测样本组成,涵盖了钓鱼邮件、假新闻、政治声明、产品评论、工作诈骗、短信和Twitter谣言等七个领域。该数据集由主要研究人员和机构创建,旨在解决跨领域欺诈检测的通用性问题。通过收集和标注超过95,854个样本,DIFrauD数据集为欺诈检测研究提供了一个多领域、多任务的基准,推动了该领域的发展。
当前挑战
DIFrauD数据集在构建过程中面临多重挑战。首先,不同领域的欺诈行为在风格和语法上存在显著差异,这增加了模型泛化能力的难度。其次,数据集的标注过程需要高度专业性和准确性,以确保标签的可靠性。此外,数据集的多样性也带来了数据清洗和预处理的复杂性,如处理非英语条目、错误条目和重复条目等。这些挑战要求研究者在模型设计和数据处理上进行创新,以提高欺诈检测的准确性和鲁棒性。
常用场景
经典使用场景
DIFrauD数据集的经典使用场景主要集中在跨领域的欺诈检测任务上。该数据集涵盖了七个不同的领域,包括钓鱼邮件、假新闻、政治声明、产品评论、工作诈骗、短信和推特谣言。通过这些多样化的数据,研究者和开发者可以训练和评估模型在不同领域中的欺诈检测能力,从而提高模型的泛化性和鲁棒性。
实际应用
在实际应用中,DIFrauD数据集被广泛用于开发和优化欺诈检测系统。例如,金融机构可以使用该数据集来训练模型,以识别钓鱼邮件和欺诈性交易;新闻机构可以利用该数据集来检测假新闻,确保信息的真实性;电商平台则可以通过该数据集来识别虚假的产品评论,保护消费者权益。这些应用场景不仅提高了系统的准确性和效率,也增强了用户的安全感和信任度。
衍生相关工作
DIFrauD数据集的发布催生了一系列相关的经典工作。例如,研究者们基于该数据集开发了多种跨领域的欺诈检测模型,这些模型在多个公开数据集上表现优异。此外,DIFrauD还启发了对欺诈行为特征的深入研究,推动了欺诈检测技术在自然语言处理和机器学习领域的进一步发展。这些工作不仅丰富了欺诈检测的理论基础,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



