FGRC-SCD|电信诈骗数据集|风险管理数据集
收藏FGRC-SCD 数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本分类
- 摘要生成
- 标签:
- 金融
- 数据规模:
- n<1K
- 语言:
- 中文
数据集描述
- 数据集来源: 基于CCF23-EVAL任务6的电信网络诈骗案件数据集。
- 数据集用途: 用于风险细粒度分类任务和风险摘要生成任务测评。
- 数据筛选标准: 基于多样性、任务相关性和是否满足人类偏好进行筛选。
数据评估结果
短信生成数据集筛选前后的评价结果比较
数据集类别 | 数据评估指标 | 案例生成方式 | 属性提示生成方式 |
---|---|---|---|
所有类别 | 余弦相似度↓ | 0.7149 | 0.6943 |
欧氏距离↑ | 0.6968 | 0.7184 | |
任务相关性↑ | 0.5665 | 0.5159 | |
人类偏好评分↑ | 1.5534 | 0.8722 | |
冒充电商物流客服类 | 余弦相似度↓ | 0.7542 | 0.6981 |
欧氏距离↑ | 0.6544 | 0.7148 | |
虚假网络投资理财类 | 余弦相似度↓ | 0.7967 | 0.7120 |
欧氏距离↑ | 0.5992 | 0.7004 | |
虚假信用服务类 | 余弦相似度↓ | 0.7840 | 0.7050 |
欧氏距离↑ | 0.6186 | 0.7077 | |
虚假购物、服务类 | 余弦相似度↓ | 0.7088 | 0.6931 |
欧氏距离↑ | 0.7037 | 0.7196 | |
冒充公检法及政府机关类 | 余弦相似度↓ | 0.7979 | 0.7088 |
欧氏距离↑ | 0.5961 | 0.7034 | |
冒充领导、熟人类 | 余弦相似度↓ | 0.7765 | 0.7063 |
欧氏距离↑ | 0.6251 | 0.7061 | |
网络婚恋、交友类 | 余弦相似度↓ | 0.7469 | 0.6972 |
欧氏距离↑ | 0.6617 | 0.7157 | |
冒充军警购物类诈骗 | 余弦相似度↓ | 0.8091 | 0.6913 |
欧氏距离↑ | 0.5812 | 0.7214 | |
网黑案件 | 余弦相似度↓ | 0.8019 | 0.6989 |
欧氏距离↑ | 0.5912 | 0.7139 | |
无风险 | 余弦相似度↓ | 0.7231 | 0.6965 |
欧氏距离↑ | 0.6875 | 0.7161 |
对话生成数据集筛选前后的评价结果比较
数据集类别 | 数据评估指标 | 案例生成方式 | 属性提示生成方式 |
---|---|---|---|
所有类别 | 余弦相似度↓ | 0.7910 | 0.7592 |
欧氏距离↑ | 0.6093 | 0.6486 | |
任务相关性↑ | 0.5860 | 0.5577 | |
人类偏好评分↑ | 1.1921 | 1.5272 | |
冒充电商物流客服类 | 余弦相似度↓ | 0.8172 | 0.7854 |
欧氏距离↑ | 0.5741 | 0.6161 | |
虚假网络投资理财类 | 余弦相似度↓ | 0.8452 | 0.8034 |
欧氏距离↑ | 0.5306 | 0.5913 | |
虚假信用服务类 | 余弦相似度↓ | 0.8452 | 0.8074 |
欧氏距离↑ | 0.5316 | 0.5849 | |
虚假购物、服务类 | 余弦相似度↓ | 0.7893 | 0.7618 |
欧氏距离↑ | 0.6119 | 0.6455 | |
冒充公检法及政府机关类 | 余弦相似度↓ | 0.8678 | 0.7966 |
欧氏距离↑ | 0.4893 | 0.6015 | |
冒充领导、熟人类 | 余弦相似度↓ | 0.8562 | 0.7744 |
欧氏距离↑ | 0.5098 | 0.6298 | |
网络婚恋、交友类 | 余弦相似度↓ | 0.8225 | 0.8260 |
欧氏距离↑ | 0.5652 | 0.5598 | |
冒充军警购物类诈骗 | 余弦相似度↓ | 0.8815 | 0.8594 |
欧氏距离↑ | 0.4664 | 0.5061 | |
网黑案件 | 余弦相似度↓ | 0.8745 | 0.8047 |
欧氏距离↑ | 0.4776 | 0.5910 | |
无风险 | 余弦相似度↓ | 0.7887 | 0.7672 |
欧氏距离↑ | 0.6122 | 0.6387 |

中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录