redasers/difraud
收藏DIFrauD - 领域无关欺诈检测基准
数据集概述
语言: 英语
许可证: MIT
数据量: 10K<n<100K
多语言性: 单语
任务类别: 文本分类、零样本分类
标签: 欺诈检测、欺骗检测、钓鱼、假新闻、基准、意见垃圾邮件、多领域
数据集配置
数据集包含以下配置及其对应的数据文件:
-
Fake News
- 训练集:
fake_news/train.jsonl - 测试集:
fake_news/test.jsonl - 验证集:
fake_news/validation.jsonl
- 训练集:
-
Job Scams
- 训练集:
job_scams/train.jsonl - 测试集:
job_scams/test.jsonl - 验证集:
job_scams/validation.jsonl
- 训练集:
-
Phishing
- 训练集:
phishing/train.jsonl - 测试集:
phishing/test.jsonl - 验证集:
phishing/validation.jsonl
- 训练集:
-
Political Statements
- 训练集:
political_statements/train.jsonl - 测试集:
political_statements/test.jsonl - 验证集:
political_statements/validation.jsonl
- 训练集:
-
Product Reviews
- 训练集:
product_reviews/train.jsonl - 测试集:
product_reviews/test.jsonl - 验证集:
product_reviews/validation.jsonl
- 训练集:
-
SMS
- 训练集:
sms/train.jsonl - 测试集:
sms/test.jsonl - 验证集:
sms/validation.jsonl
- 训练集:
-
Twitter Rumours
- 训练集:
twitter_rumours/train.jsonl - 测试集:
twitter_rumours/test.jsonl - 验证集:
twitter_rumours/validation.jsonl
- 训练集:
数据集详细信息
总样本数: 95854
欺骗性样本数: 37282
非欺骗性样本数: 58572
数据集包含7个独立领域:
-
Phishing
- 总数: 15272
- 欺骗性: 6074
- 非欺骗性: 9198
-
Fake News
- 总数: 20456
- 欺骗性: 8832
- 非欺骗性: 11624
-
Political Statements
- 总数: 12497
- 欺骗性: 8042
- 非欺骗性: 4455
-
Product Reviews
- 总数: 20971
- 欺骗性: 10492
- 非欺骗性: 10479
-
Job Scams
- 总数: 14295
- 欺骗性: 599
- 非欺骗性: 13696
-
SMS
- 总数: 6574
- 欺骗性: 1274
- 非欺骗性: 5300
-
Twitter Rumours
- 总数: 5789
- 欺骗性: 1969
- 非欺骗性: 3820
每个子目录/配置包含三个文件:train.jsonl, test.jsonl, 和 validation.jsonl,分别包含训练集、测试集和验证集。
分割比例:
- 训练集: 80%
- 测试集: 10%
- 验证集: 10%
采样过程: 随机采样,种子为42,按领域分层采样。
字段
每个jsonl文件包含两个字段:
text: 字符串,包含欺骗性或真实性的声明或主张。label: 整数,表示文本是否欺骗性,1表示欺骗性,0表示非欺骗性。
处理和清洗
每个数据集都经过Cleanlab清洗,移除了非英语条目、解析错误条目、空条目、重复条目、长度小于2个字符或超过1000000个字符的条目。标签经过手动校正和修正。
布局
数据集目录布局如下:
difraud fake_news/ train.jsonl test.jsonl validation.jsonl README.md ... sms/ train.jsonl test.jsonl validation.jsonl README.md README.md LICENSE.txt
许可证
数据集发布在MIT许可证下,可以自由使用和修改。
引用
如果该数据集对你的研究有用,请考虑引用。




