five

FGRC-SCD|电信诈骗数据集|风险管理数据集

收藏
huggingface2024-11-10 更新2024-12-12 收录
电信诈骗
风险管理
下载链接:
https://huggingface.co/datasets/Abooooo/FGRC-SCD
下载链接
链接失效反馈
资源简介:
基于CCF23-EVAL任务6的电信网络诈骗案件数据集合成了风险短信与对话数据集,并基于多样性、任务相关性和是否满足人类偏好进行筛选,可用于风险细粒度分类任务和风险摘要生成任务测评。
创建时间:
2024-11-10
原始信息汇总

FGRC-SCD 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 文本分类
    • 摘要生成
  • 标签:
    • 金融
  • 数据规模:
    • n<1K
  • 语言:
    • 中文

数据集描述

  • 数据集来源: 基于CCF23-EVAL任务6的电信网络诈骗案件数据集。
  • 数据集用途: 用于风险细粒度分类任务和风险摘要生成任务测评。
  • 数据筛选标准: 基于多样性、任务相关性和是否满足人类偏好进行筛选。

数据评估结果

短信生成数据集筛选前后的评价结果比较

数据集类别 数据评估指标 案例生成方式 属性提示生成方式
所有类别 余弦相似度↓ 0.7149 0.6943
欧氏距离↑ 0.6968 0.7184
任务相关性↑ 0.5665 0.5159
人类偏好评分↑ 1.5534 0.8722
冒充电商物流客服类 余弦相似度↓ 0.7542 0.6981
欧氏距离↑ 0.6544 0.7148
虚假网络投资理财类 余弦相似度↓ 0.7967 0.7120
欧氏距离↑ 0.5992 0.7004
虚假信用服务类 余弦相似度↓ 0.7840 0.7050
欧氏距离↑ 0.6186 0.7077
虚假购物、服务类 余弦相似度↓ 0.7088 0.6931
欧氏距离↑ 0.7037 0.7196
冒充公检法及政府机关类 余弦相似度↓ 0.7979 0.7088
欧氏距离↑ 0.5961 0.7034
冒充领导、熟人类 余弦相似度↓ 0.7765 0.7063
欧氏距离↑ 0.6251 0.7061
网络婚恋、交友类 余弦相似度↓ 0.7469 0.6972
欧氏距离↑ 0.6617 0.7157
冒充军警购物类诈骗 余弦相似度↓ 0.8091 0.6913
欧氏距离↑ 0.5812 0.7214
网黑案件 余弦相似度↓ 0.8019 0.6989
欧氏距离↑ 0.5912 0.7139
无风险 余弦相似度↓ 0.7231 0.6965
欧氏距离↑ 0.6875 0.7161

对话生成数据集筛选前后的评价结果比较

数据集类别 数据评估指标 案例生成方式 属性提示生成方式
所有类别 余弦相似度↓ 0.7910 0.7592
欧氏距离↑ 0.6093 0.6486
任务相关性↑ 0.5860 0.5577
人类偏好评分↑ 1.1921 1.5272
冒充电商物流客服类 余弦相似度↓ 0.8172 0.7854
欧氏距离↑ 0.5741 0.6161
虚假网络投资理财类 余弦相似度↓ 0.8452 0.8034
欧氏距离↑ 0.5306 0.5913
虚假信用服务类 余弦相似度↓ 0.8452 0.8074
欧氏距离↑ 0.5316 0.5849
虚假购物、服务类 余弦相似度↓ 0.7893 0.7618
欧氏距离↑ 0.6119 0.6455
冒充公检法及政府机关类 余弦相似度↓ 0.8678 0.7966
欧氏距离↑ 0.4893 0.6015
冒充领导、熟人类 余弦相似度↓ 0.8562 0.7744
欧氏距离↑ 0.5098 0.6298
网络婚恋、交友类 余弦相似度↓ 0.8225 0.8260
欧氏距离↑ 0.5652 0.5598
冒充军警购物类诈骗 余弦相似度↓ 0.8815 0.8594
欧氏距离↑ 0.4664 0.5061
网黑案件 余弦相似度↓ 0.8745 0.8047
欧氏距离↑ 0.4776 0.5910
无风险 余弦相似度↓ 0.7887 0.7672
欧氏距离↑ 0.6122 0.6387
AI搜集汇总
数据集介绍
main_image_url
构建方式
FGRC-SCD数据集的构建基于CCF23-EVAL任务6的电信网络诈骗案件数据,通过合成风险短信与对话数据,并依据多样性、任务相关性和人类偏好进行严格筛选。该数据集旨在为风险细粒度分类任务和风险摘要生成任务提供高质量的测评基准。在构建过程中,采用了多种生成方式,包括案例生成和属性提示生成,并通过余弦相似度、欧氏距离、任务相关性和人类偏好评分等指标进行数据评估,确保数据的多样性和任务相关性。
特点
FGRC-SCD数据集的特点在于其专注于电信网络诈骗领域的风险短信与对话数据,涵盖了多种诈骗类型,如冒充电商物流客服、虚假网络投资理财、虚假信用服务等。数据集通过严格的筛选机制,确保了数据的多样性和任务相关性,同时满足人类偏好。其评估指标包括余弦相似度、欧氏距离、任务相关性和人类偏好评分,这些指标为数据质量提供了多维度的保障。数据集规模虽小,但数据质量高,适用于细粒度分类和摘要生成任务。
使用方法
FGRC-SCD数据集的使用方法主要围绕风险细粒度分类和风险摘要生成任务展开。用户可以通过加载数据集,利用其提供的短信和对话数据进行模型训练和评估。在细粒度分类任务中,用户可以根据诈骗类型对数据进行分类,评估模型的分类性能。在摘要生成任务中,用户可以利用数据集生成风险摘要,评估模型的生成能力。数据集提供了多种生成方式,用户可以根据需求选择案例生成或属性提示生成方式,并通过提供的评估指标对模型性能进行量化分析。
背景与挑战
背景概述
FGRC-SCD数据集是基于CCF23-EVAL任务6的电信网络诈骗案件数据集合成的风险短信与对话数据集,旨在支持风险细粒度分类任务和风险摘要生成任务的测评。该数据集由相关领域的研究人员或机构在2023年创建,专注于金融领域的文本分类与摘要生成。通过筛选多样性、任务相关性和人类偏好,FGRC-SCD为研究人员提供了高质量的数据资源,推动了电信网络诈骗风险识别与防范技术的发展。该数据集的发布不仅填补了金融领域风险短信与对话数据集的空白,还为相关领域的研究提供了重要的数据支持。
当前挑战
FGRC-SCD数据集在构建与应用过程中面临多重挑战。首先,电信网络诈骗案件数据的多样性和复杂性使得数据筛选与标注工作异常困难,需确保数据的代表性和准确性。其次,风险细粒度分类任务要求模型能够精准区分不同类型的诈骗手段,这对数据集的多样性和任务相关性提出了极高要求。此外,风险摘要生成任务需要模型在理解文本的基础上生成简洁且准确的摘要,这对数据质量与模型能力均构成挑战。在构建过程中,研究人员还需平衡数据规模与质量,确保数据集在满足研究需求的同时具备实际应用价值。
常用场景
经典使用场景
FGRC-SCD数据集在电信网络诈骗风险识别领域具有重要应用,尤其在风险短信与对话的细粒度分类任务中表现突出。该数据集通过多样化的案例生成方式,能够有效模拟不同类型的诈骗场景,为研究人员提供了丰富的实验数据。其筛选机制基于任务相关性和人类偏好,确保了数据的高质量和实用性,特别适用于风险短信的自动分类和风险摘要的生成任务。
解决学术问题
FGRC-SCD数据集解决了电信网络诈骗风险识别中的关键学术问题,如风险短信的细粒度分类和风险摘要的自动生成。通过提供多样化的诈骗案例和严格的筛选标准,该数据集为研究人员提供了可靠的实验平台,推动了自然语言处理技术在金融安全领域的应用。其高任务相关性和人类偏好评分进一步提升了模型的实用性和准确性,为相关研究提供了重要的数据支持。
衍生相关工作
FGRC-SCD数据集的发布推动了多项经典工作的诞生,特别是在风险短信分类和诈骗摘要生成领域。基于该数据集的研究成果,许多高效的机器学习模型和深度学习算法被提出,进一步提升了诈骗识别的准确性和效率。此外,该数据集还促进了跨领域合作,推动了金融安全与自然语言处理技术的深度融合,为相关领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录