首次让我们出一个基于延迟的同行IP
北京哪里能治好白癜风 https://yyk.familydoctor.com.cn/2831/newslist_8_1.html 由于我们的某位客户工作非常繁忙,所以希望我们出一个样本报告,初步以国家级别的就可以,来证明一下我们和同行数据的情况,以便他和他的同事和领导进行质量方面的评估。当然,他们后期也会基于自身的需求进行相关数据的采集和评估,比如他们比较关心的国家。 这个需求挺多客户都有的。 所以我抽了一点时间做了这个事情,既然做了,正好也可以公开出来吧。并且顺带优化了一下我们自己的IPDB数据库的PHP读取代码。还是要吐槽一下同行的执行效率,实在是太差了。 测试数据情况如下: 原始数据取自我们香港专门用于延迟监测用途的节点数据,监测数据跨度大概是在10天左右,原始数据一共个。只保留14ms以下的数据,过滤后的结果是个。 根据我们的经验,我们认为从香港节点为中心点,RTT延迟为14ms以内的IP,理论上都应该也只会包括中国大陆以及港澳台地区的地区(延迟超过14ms就有可能到达菲律宾北部的网络路径直连香港的IP了),而凡是不属于中国的IP的标注,都可以认为是错误的,没有例外。因为监测数据有自身的检测周期,所以有一定量的小数量看似错误的标注,其中也包括一些卫星网络地面站的IP,不一定算是真的错误。跑完的结果如下:同行MXXXXXX的数据情况,执行耗时秒左右:美国=中国=其它=南非=新加坡=塞舌尔=毛里求斯=荷兰=英国=伊朗=澳大利亚=加拿大=德国=俄罗斯联邦=韩国=英属维尔京群岛=马来西亚=日本=塞浦路斯=伯利兹=捷克=印度=罗马尼亚=爱尔兰=乌克兰=瑞士=法国=波兰=保加利亚=卢森堡=奥地利=亚美尼亚=库拉索=瑞典=哈萨克斯坦=丹麦=西班牙=爱沙尼亚=印度尼西亚=以色列=智利=直布罗陀=柬埔寨=菲律宾=98阿联酋=90越南=88沙特阿拉伯=64挪威=51葡萄牙=34芬兰=32新西兰=31泰国=29意大利=29蒙古=28瓦努阿图=26比利时=21格鲁吉亚=19孟加拉国=18伊拉克=14摩尔多瓦=11斯洛文尼亚=9肯尼亚=3老挝=2巴西=2关岛=2文莱=1立陶宛=1墨西哥=1 备注:其中的“其它”数据项为标注国家为空的情况。另一个同行IP2XXXXXXXX的数据情况,执行耗时秒左右(内存缓存模式30秒左右):中国=美国=南非=比利时=10荷兰=英国=日本=新加坡=德国=韩国=加拿大=伊朗=巴西=澳大利亚=俄罗斯=芬兰=伯利兹=印度=波兰=塞浦路斯=印度尼西亚=英属维尔京群岛=瑞士=马来西亚=爱尔兰=乌克兰=塞舌尔=法国=瑞典=柬埔寨=西班牙=哈萨克斯坦=保加利亚=丹麦=菲律宾=爱沙尼亚=卢森堡=捷克=马耳他=奥地利=越南=阿联酋=95泰国=55挪威=34新西兰=33蒙古=21马恩岛=19伊拉克=14泽西岛=12斯洛文尼亚=9关岛=6意大利=4以色列=2老挝=2孟加拉=2土库曼斯坦=1文莱=1埃及=1墨西哥=1阿富汗=1 接着是我们IPIP的数据情况,执行耗时90秒左右(内存缓存模式15秒左右):中国=其它=亚太地区=美国=俄罗斯=欧洲地区=日本=新加坡=29菲律宾=14泰国=6蒙古=5英国=5巴西=5柬埔寨=5关岛=5智利=4爱尔兰=3西班牙=2老挝=2瑞士=2印度=1土耳其=1德国=1法国=1南非=1孟加拉=1阿富汗=1 备注:其中的“其它”数据为实际标注为ANYCAST(也就是大家常看到的域名标注)以及各种骨干网络的情况,数量上以ANYCAST情况为主。 另外,我的朋友看过文章预览之后,强烈建议我加上纯真的测试,我想想也是,毕竟前几天我在朋友圈吐槽了某技术人员的言论,如下图: 而且等着跑MXXXXXX的数据的时间实在是无聊,那就写出来试试呗。 跑完了就发现自己忘记了最早为什么要自己做数据时想避开的那个坑了,地理位置标注很随意,结果是这样的: 所以就不给出具体结果了,大家看图片参考一下就好了。 出一个比较直观的结论:同样的数据源,MXXXXXX只标注了57万个IP到中国,IP2XXXXXXXX标注了万个,而我们标注了万个。而错误量最大的美国标注,MXXXXXX标注了91万个,IP2XXXXXXXX标注了86万个,而我们只有相差数量级的个。其它的都算是小问题了。 我们只用了八年时间,做到了别人二十年都没有做到的事情。 至于数据错误带来的影响嘛,请参考一句话,冤假错案,是加倍的错误,冤枉了好人,放过了坏人。我想在这里也同样适用。 至于很多人心心念念的性价比问题,请邮件咨询他们的CommercialUse的价格。要明白,质量层面的每个百分比的提高,成本很大可能是指数级增长的,更何况并不是有人有钱就一定能做到的。。。 还要说,这只是一个以香港数据为中心的例子,实际上,我们全球监测网络里能看到的所有区域,问题都是类似的,只能说,不用心的话,在哪里都不用心。 最终,数据的质量,要靠踏踏实实的想办法解决问题,而且是长期的解决问题,而不是靠好看的ppt和嘴炮般的销售驱动。 反正如果我是数据采购方,我只会买对的哪怕是贵的,而不会买质量差虽然看着便宜的。 为了避免杠精,说我们也有问题,把上面的一段话再重复一次!因为监测数据有自身的检测周期,所以有一定量的小数量看似错误的标注,其中也包括一些卫星网络地面站的IP,不一定算是真的错误。 欢迎有价值的探讨,有兴趣的请留言给我。 统一说明: 1、四个IP数据库都是最新版本。两个同行的都是官方代码。 2、国内其它同行我们没有数据,所以对这个有兴趣做对比的可以找我索取原始数据自行对比。 3、执行时间由PHP在WINDOWS10命令行下执行,版本8.1.0RC3,CPU为IntelXeonW-M。 4、我们的IPDB数据库的PHP读取代码新版本会支持内存缓存模式,比我们自己现有默认的文件读取方式快6倍,即将发布。当然这个模式应该只适用于命令行方式,但是速度快了,总是可以帮助大家节省时间,提高效率,我花点时间优化一下也是值得的。至于比同行快多少倍,各位可以自己心算一下。 高春辉你的鼓励,我的动力!
|
转载请注明地址:http://www.luodechenga.com/ldcly/9363.html
- 上一篇文章: 等深线ldquo王家既非狸猫,也
- 下一篇文章: 没有了