行业新闻

提高IP定位精准度之基准点聚类定位

提高IP定位精准度之基准点聚类定位

针对不同应用场景下的有基准点的IP,通过利用动态密度聚类算法,完成高精准IP地址定位。动态密度聚类算法是基于经典的密度聚类算法,结合IP定位的现实需求进行优化改进,针对不同的聚类参数,权衡最终聚类覆盖区域的面积大小以及聚类覆盖区域下的基准点召回率,寻找效果最优的聚类参数,得到最终的聚类结果。


1.基准点分布情况

基准点分布情况,可以分为两种。一种以企业专线IP为代表,单个基准点的历史点集中分布,相邻IP段甚至一个IP段中每个基准点的分布位置之间相对独立,无相关性;另外一种以住宅用户IP为代表,连续IP段的基准点的历史点分散分布且分布相似。

企业专线IP,基准点分布一共有两种情况,如图1所 示。一个IP段中每个基准点的历史点分布集中,但位置之间无相关性。或者整个IP段属于ISP,每个子块都有相应的WHOIS分块信息,且在每个子块中基准点的历史点分布都集中。

图1 企业专线IP的基准点分布情况                                                                                                         图1 企业专线IP的基准点分布情况

住宅用户IP,基准点分布情况如图2所示。首先,一个IP段中每个基准点的历史点分布分散,且分布相似;连续的IP段中基准点的历史点分布分散,且分布相似。其次,ICMP响应IP多,无开放端口的IP。

20200312162548731.png                                                                                                       图2 住宅用户IP的基准点分布情况

2.基准点聚类定位

针对企业专线类的IP,每个IP有至少4个基准点的历史点时才进行基准点聚类定位,确保聚类定位IP的准确性。而针对住宅用户类的IP块,当IP块中的基准点的历史点个数到达1,024个时,才进行基准点聚类定位,从而确保基准点聚类定位IP块的准确性。

20200312162735424.png                                                                                                                       图3动态聚类分析

首先,对IP基准点数据进行处理,包含经纬度坐标系统一、经纬度Z-Score标准化;其次,使用动态密度聚类算法对标准化后的数据进行密度聚类;最后,将聚类结果进行分析优化,完成基准点聚类定位。其中,聚类原则是聚类形成的圆形区域覆盖面积(Area)越小,召回率(Recall=圆形区域包含的基准点数量/全部基准点数量)越高越好。如图3所示,左侧聚类结果的覆盖面积偏小(A=10.24)但召回率低(R=90.9%);右侧聚类结果的召回率高(R=100%),但覆盖面积偏大(A=62.24);所以系统最终采用中间的聚类结果,覆盖面积适中(A=22.57)且召回率较高(R=99.2%)。

关闭