互联网挖掘异常值分析数据
收藏浙江省数据知识产权登记平台2023-11-08 更新2024-05-08 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/9366
下载链接
链接失效反馈官方服务:
资源简介:
采集海量互联网数据,分析挖掘数据异常值,精准识别数据异常值,为后期海量脏数据处理清洗转换作基础,是最终实现覆盖大面积有效网络相关数据的支撑。1.数据来源
采集了包括全网精品综合门户网站、全品类优质行业网站、权威地方官媒网络、移动端APP媒体,涵盖全部115个细分行业互联网数据,覆盖95%的中国网民、40万家优质合作网站。
2.数据处理
对采集到的数据进行异常值分析,采用Z-score的方法计算异常值,
公式为:
Z = (x - μ) / σ其中,x是usetype单个数据值,μ是数据集中枢,σ是数据标准差。其中,
μ = sum(data) / len(data);
σ = sqrt((sum((x - μ)^2) / len(data))
data数据集为每行domain中的数据累计计分,计分维度包括id、state、usetype、ip、pv、area_id、siteid、sitename、domain、login、respond等;
根据互联网不同应用场景给定异常值范围,例如-3<Z<3,实现数据异常值的精准识别。
3.数据应用
通过对互联网数据进行分析挖掘,有效识别数据异常值,是后期海量脏数据处理清洗转换的基础,是最终实现覆盖大面积有效网络相关数据的支撑。
提供机构:
浙江盘石信息技术股份有限公司
创建时间:
2023-10-11
搜集汇总
数据集介绍

特点
该数据集是一个用于互联网数据异常值分析的企业数据集,包含3281条记录,采用Z-score方法进行异常值识别,覆盖多个数据维度,旨在为数据处理清洗提供基础支持。
以上内容由遇见数据集搜集并总结生成



