欺诈文本检测训练数据集
收藏魔搭社区2026-05-15 更新2025-02-01 收录
下载链接:
https://modelscope.cn/datasets/golfxiao/anti_fraud_dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个欺诈文本分类检测的对话数据集,给`anti_fraud`模型配套使用,用途是训练和验证文本欺诈分类模型,使其能够准确识别对话中的欺诈行为,并标识出对话中的欺诈发言者。数据集总计包含约27736条对话记录,按照8:1:1的比例划分为训练集、验证集和测试集,每条数据有input(对话的具体内容)、instruction(给模型的指令)、output(模型的目标输出)共三个字段。
This is a conversational dataset for fraudulent text classification and detection, designed to support the `anti_fraud` model. It is used to train and validate text fraud classification models, enabling them to accurately recognize fraudulent behaviors in conversations and identify fraudulent speakers within the dialogues. The dataset contains approximately 27,736 conversation records in total, which are divided into training, validation and test sets at an 8:1:1 ratio. Each data entry includes three fields: input (the specific content of the conversation), instruction (the prompt provided to the model), and output (the target output of the model).
提供机构:
maas
创建时间:
2025-01-26
搜集汇总
数据集介绍

背景与挑战
背景概述
这是一个欺诈文本分类检测的对话数据集,专为训练和验证'anti_fraud'模型设计,用于准确识别对话中的欺诈行为并标识欺诈发言者。数据集通过结合欺诈类和非欺诈类数据构造:欺诈类数据从新闻网站诈骗案例报道生成,利用GPT-4o模型还原对话并标注;非欺诈类数据基于真实会议ASR文本处理并打上反向标签。总计包含约27736条对话记录,按照8:1:1的比例划分为训练集、验证集和测试集,确保模型训练的全面性和有效性。
以上内容由遇见数据集搜集并总结生成



