巨灵鸟

电话   4000156919
当前位置:首页 > 网络和服务器管理_ERP百科

技术一旦被用来作恶,究竟会有多可怕(三)

来源:巨灵鸟软件  作者:进销存软件  发布:2019/9/15  浏览次数:4064

4、接下来是 O2O 和搜索引擎

你还记得上车之前,我问了你一个问题吗?你在大众点评上看到的信息,真是吃货们点评的吗?答:大部分时候是,但有时候不是。这里面的影响因素还是爬虫。御风告诉我,这些爬虫很可能被用来做两件事:1、大众点评毕竟是最好的点评网站。很多网站都会爬取大众点评的数据,用来丰富自己的信息。2、很多刚上点评的商户,信誉值不高,可以用爬虫来模拟留言、点赞,刷高自己的信誉值。所以,理论上讲一旦大众点评对这些爬虫对抗出现松懈,就会有一些不三不四的店铺被“刷”到顶部。而与之相似的,是爬虫针对搜索引擎的进攻。你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多。


既然这样,那么我就派出爬虫,搜索某个特定的“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做 SEO(搜索引擎优化)。

举个例子:

我随意搜索一个关键词。


它排在前面的网址,有可能就是经过 SEO 的。作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。尤其是很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。所以黄赌毒网站只能利用黑色 SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们“降权”处理。不过御风算了算,这些黄色网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。这也就解释了为什么有时我们“众里寻他千百度”,蓦然回首,却看到“有人正在脱裤裤”了。5、最后再说说政府部门你看这张图,全是爬虫针对政府信息的爬取。


第二名,北京市预约挂号统一平台。这个锅,板上钉钉要号贩子来背。其他的,例如法院公告、信用中国、信用安徽,为什么爬虫要爬这些信息呢?因为有些信息,是只有政府部门才掌握的。比如,谁被告过,哪家公司曾经被行政处罚,哪个人曾经进入了失信名单。这些信息综合起来,可以用来做一个公司或者个人的信誉记录。我试着打开了一下排名第四位的“信用中国”。


在这个平台上,你只要输入一个身份证号或者手机号,就可以查询到一个人的信用情况。拉到最底下一看,这个网站果然是是根红苗正的。

如果一家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算。如此,信用中国被爬,也就很容易解释了。不过刚才那张表格里,排名第七的是四川住建厅。这又是什么骚操作?根据御风的推测,这很可能是某些公司提供的一项“特殊服务”:他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司:别睡了,起来投标了。二、爬虫战争说了这么多,我猜你会有几个疑问。问题 1、爬虫搞出这么多姿势,它究竟是不是违法呢?这个问题还真的不简单。我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。于是我又继续搜索,发现了几条司法解释:未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。

 

 


但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见)但是,对企业来说,爬虫却着实伤害了自己。有句话说:“主救自救者。”他们得组织“民兵”自己保卫自己。问题 2、爬虫战争谁会赢?爬虫和被爬企业越来越势不两立。说白了,他们的对抗都是在阻挡对方的财路。所以下手都挺重。企业经典的对抗方式,大概有几种:图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。。。

 

除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。但是,爬虫的请求,和真人的请求真的太像了。我觉得,对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。在我看来,这场对抗爬虫的常规战眼看就要升级为“智能战”,而且战线会向云端转移。比如腾讯云的 WAF,听说最近就要通过人工智能的方法来识别爬虫。这里就不帮他们打广告了。还有很多其他的云安全厂商,也开始主推反爬虫的技术。不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。但是我相信,在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。三、《中国焦虑图鉴》最后,中哥帮你搞到了一张秘密表格。这是被监测到的受爬虫侵扰最多的 Top50。(采样数据,仅供参考)

 

 

这张表里,除了google、Youtube、ask、亚洲航空这四家企业之外,应该全是中国企业(或机关)。正是从这些名字背后,我体会到了很多人的辛酸和焦虑。爬虫是趋利的,它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方,往往是我们不忍提及的隐痛。你看,排名第1的“中国铁路路客户服务中心”无数像幺哥一样的游子,他们奋斗在一个远离家乡的城市,为了让家人有更幸福的生活。正是他们难以买到过年回家车票的事实,才把 12306 推上了爬虫榜的第一名。你看,排名第8的“最高人民法院公告查询”在中国,我们的信用体系还很不完善,骗子和老赖还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。你看,排名第15的“北京市预约挂号统一平台”我们的医疗改革在进行,但像你我一样的普通人仍然看病难,看病贵。又便宜又好的医疗资源需要争夺,这才有了“一号难求”的现实,才有了黄牛用爬虫拼命抢号的现象。自不用说那些神坑的虚假广告,冲榜刷量,背后都有爬虫的影子。有人说技术有罪,有人说技术无罪。

 

 

我不知道技术是否有罪,我只知道,这些盘踞在我们广袤版图上数以十亿计的爬虫,无时无刻不在提醒着我们:

抱怨不会让这个世界变得更好,你想生活在一个怎样的世界,就要用自己的双手去创造它。


对了,这份《中国爬虫图鉴》我也从云鼎实验室的朋友那里要到啦,如果你想阅读的话,可以上网找来看,也可以加微信跟我要~

另外云鼎实验室的技术可以探测到全网的恶意威胁,还是挺酷的。他们还有其他的报告放出~

 

来源:巨灵鸟 欢迎分享本文

  • 点击这里给我发消息
  • 点击这里给我发消息