FGRC-SCD
收藏Hugging Face2024-11-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Abooooo/FGRC-SCD
下载链接
链接失效反馈官方服务:
资源简介:
基于CCF23-EVAL任务6的电信网络诈骗案件数据集合成了风险短信与对话数据集,并基于多样性、任务相关性和是否满足人类偏好进行筛选,可用于风险细粒度分类任务和风险摘要生成任务测评。
A risk SMS and dialogue dataset was synthesized from the telecom fraud case dataset of Task 6 in CCF23-EVAL, then screened based on diversity, task relevance and alignment with human preferences. This dataset can be utilized for evaluating risk fine-grained classification tasks and risk summary generation tasks.
创建时间:
2024-11-10
原始信息汇总
FGRC-SCD 数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本分类
- 摘要生成
- 标签:
- 金融
- 数据规模:
- n<1K
- 语言:
- 中文
数据集描述
- 数据集来源: 基于CCF23-EVAL任务6的电信网络诈骗案件数据集。
- 数据集用途: 用于风险细粒度分类任务和风险摘要生成任务测评。
- 数据筛选标准: 基于多样性、任务相关性和是否满足人类偏好进行筛选。
数据评估结果
短信生成数据集筛选前后的评价结果比较
| 数据集类别 | 数据评估指标 | 案例生成方式 | 属性提示生成方式 |
|---|---|---|---|
| 所有类别 | 余弦相似度↓ | 0.7149 | 0.6943 |
| 欧氏距离↑ | 0.6968 | 0.7184 | |
| 任务相关性↑ | 0.5665 | 0.5159 | |
| 人类偏好评分↑ | 1.5534 | 0.8722 | |
| 冒充电商物流客服类 | 余弦相似度↓ | 0.7542 | 0.6981 |
| 欧氏距离↑ | 0.6544 | 0.7148 | |
| 虚假网络投资理财类 | 余弦相似度↓ | 0.7967 | 0.7120 |
| 欧氏距离↑ | 0.5992 | 0.7004 | |
| 虚假信用服务类 | 余弦相似度↓ | 0.7840 | 0.7050 |
| 欧氏距离↑ | 0.6186 | 0.7077 | |
| 虚假购物、服务类 | 余弦相似度↓ | 0.7088 | 0.6931 |
| 欧氏距离↑ | 0.7037 | 0.7196 | |
| 冒充公检法及政府机关类 | 余弦相似度↓ | 0.7979 | 0.7088 |
| 欧氏距离↑ | 0.5961 | 0.7034 | |
| 冒充领导、熟人类 | 余弦相似度↓ | 0.7765 | 0.7063 |
| 欧氏距离↑ | 0.6251 | 0.7061 | |
| 网络婚恋、交友类 | 余弦相似度↓ | 0.7469 | 0.6972 |
| 欧氏距离↑ | 0.6617 | 0.7157 | |
| 冒充军警购物类诈骗 | 余弦相似度↓ | 0.8091 | 0.6913 |
| 欧氏距离↑ | 0.5812 | 0.7214 | |
| 网黑案件 | 余弦相似度↓ | 0.8019 | 0.6989 |
| 欧氏距离↑ | 0.5912 | 0.7139 | |
| 无风险 | 余弦相似度↓ | 0.7231 | 0.6965 |
| 欧氏距离↑ | 0.6875 | 0.7161 |
对话生成数据集筛选前后的评价结果比较
| 数据集类别 | 数据评估指标 | 案例生成方式 | 属性提示生成方式 |
|---|---|---|---|
| 所有类别 | 余弦相似度↓ | 0.7910 | 0.7592 |
| 欧氏距离↑ | 0.6093 | 0.6486 | |
| 任务相关性↑ | 0.5860 | 0.5577 | |
| 人类偏好评分↑ | 1.1921 | 1.5272 | |
| 冒充电商物流客服类 | 余弦相似度↓ | 0.8172 | 0.7854 |
| 欧氏距离↑ | 0.5741 | 0.6161 | |
| 虚假网络投资理财类 | 余弦相似度↓ | 0.8452 | 0.8034 |
| 欧氏距离↑ | 0.5306 | 0.5913 | |
| 虚假信用服务类 | 余弦相似度↓ | 0.8452 | 0.8074 |
| 欧氏距离↑ | 0.5316 | 0.5849 | |
| 虚假购物、服务类 | 余弦相似度↓ | 0.7893 | 0.7618 |
| 欧氏距离↑ | 0.6119 | 0.6455 | |
| 冒充公检法及政府机关类 | 余弦相似度↓ | 0.8678 | 0.7966 |
| 欧氏距离↑ | 0.4893 | 0.6015 | |
| 冒充领导、熟人类 | 余弦相似度↓ | 0.8562 | 0.7744 |
| 欧氏距离↑ | 0.5098 | 0.6298 | |
| 网络婚恋、交友类 | 余弦相似度↓ | 0.8225 | 0.8260 |
| 欧氏距离↑ | 0.5652 | 0.5598 | |
| 冒充军警购物类诈骗 | 余弦相似度↓ | 0.8815 | 0.8594 |
| 欧氏距离↑ | 0.4664 | 0.5061 | |
| 网黑案件 | 余弦相似度↓ | 0.8745 | 0.8047 |
| 欧氏距离↑ | 0.4776 | 0.5910 | |
| 无风险 | 余弦相似度↓ | 0.7887 | 0.7672 |
| 欧氏距离↑ | 0.6122 | 0.6387 |
搜集汇总
数据集介绍

构建方式
FGRC-SCD数据集的构建基于CCF23-EVAL任务6的电信网络诈骗案件数据,通过合成风险短信与对话数据,并依据多样性、任务相关性和人类偏好进行严格筛选。该数据集旨在为风险细粒度分类任务和风险摘要生成任务提供高质量的测评基准。在构建过程中,采用了多种生成方式,包括案例生成和属性提示生成,并通过余弦相似度、欧氏距离、任务相关性和人类偏好评分等指标进行数据评估,确保数据的多样性和任务相关性。
特点
FGRC-SCD数据集的特点在于其专注于电信网络诈骗领域的风险短信与对话数据,涵盖了多种诈骗类型,如冒充电商物流客服、虚假网络投资理财、虚假信用服务等。数据集通过严格的筛选机制,确保了数据的多样性和任务相关性,同时满足人类偏好。其评估指标包括余弦相似度、欧氏距离、任务相关性和人类偏好评分,这些指标为数据质量提供了多维度的保障。数据集规模虽小,但数据质量高,适用于细粒度分类和摘要生成任务。
使用方法
FGRC-SCD数据集的使用方法主要围绕风险细粒度分类和风险摘要生成任务展开。用户可以通过加载数据集,利用其提供的短信和对话数据进行模型训练和评估。在细粒度分类任务中,用户可以根据诈骗类型对数据进行分类,评估模型的分类性能。在摘要生成任务中,用户可以利用数据集生成风险摘要,评估模型的生成能力。数据集提供了多种生成方式,用户可以根据需求选择案例生成或属性提示生成方式,并通过提供的评估指标对模型性能进行量化分析。
背景与挑战
背景概述
FGRC-SCD数据集是基于CCF23-EVAL任务6的电信网络诈骗案件数据集合成的风险短信与对话数据集,旨在支持风险细粒度分类任务和风险摘要生成任务的测评。该数据集由相关领域的研究人员或机构在2023年创建,专注于金融领域的文本分类与摘要生成。通过筛选多样性、任务相关性和人类偏好,FGRC-SCD为研究人员提供了高质量的数据资源,推动了电信网络诈骗风险识别与防范技术的发展。该数据集的发布不仅填补了金融领域风险短信与对话数据集的空白,还为相关领域的研究提供了重要的数据支持。
当前挑战
FGRC-SCD数据集在构建与应用过程中面临多重挑战。首先,电信网络诈骗案件数据的多样性和复杂性使得数据筛选与标注工作异常困难,需确保数据的代表性和准确性。其次,风险细粒度分类任务要求模型能够精准区分不同类型的诈骗手段,这对数据集的多样性和任务相关性提出了极高要求。此外,风险摘要生成任务需要模型在理解文本的基础上生成简洁且准确的摘要,这对数据质量与模型能力均构成挑战。在构建过程中,研究人员还需平衡数据规模与质量,确保数据集在满足研究需求的同时具备实际应用价值。
常用场景
经典使用场景
FGRC-SCD数据集在电信网络诈骗风险识别领域具有重要应用,尤其在风险短信与对话的细粒度分类任务中表现突出。该数据集通过多样化的案例生成方式,能够有效模拟不同类型的诈骗场景,为研究人员提供了丰富的实验数据。其筛选机制基于任务相关性和人类偏好,确保了数据的高质量和实用性,特别适用于风险短信的自动分类和风险摘要的生成任务。
解决学术问题
FGRC-SCD数据集解决了电信网络诈骗风险识别中的关键学术问题,如风险短信的细粒度分类和风险摘要的自动生成。通过提供多样化的诈骗案例和严格的筛选标准,该数据集为研究人员提供了可靠的实验平台,推动了自然语言处理技术在金融安全领域的应用。其高任务相关性和人类偏好评分进一步提升了模型的实用性和准确性,为相关研究提供了重要的数据支持。
衍生相关工作
FGRC-SCD数据集的发布推动了多项经典工作的诞生,特别是在风险短信分类和诈骗摘要生成领域。基于该数据集的研究成果,许多高效的机器学习模型和深度学习算法被提出,进一步提升了诈骗识别的准确性和效率。此外,该数据集还促进了跨领域合作,推动了金融安全与自然语言处理技术的深度融合,为相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



