媳妇在前几天的时候告诉我说:最近猎聘通知系统没有出新的数据,是不是猎聘抓取数据的程序坏了?
我说:可能吧
为什么说是可能吧,因为我自己也不能确定猎聘的数据抓取系统是不是坏了,我也不知道猎聘是不是把网站网页改版了,我只知道猎聘的抓取数据程序一直都在正常运行中,直到我查看数据的时候才发现,原来猎聘的数据数据程序在三个月前就已经不能使用了。
因为当时我写猎聘招聘网站抓取数据程序的时候,写的比较仓促,没有加入通知系统,比如长时间没有新的数据出现系统会自动通知查看程序是否运行正常。
我大概查看了下猎聘网站,发现这个网站是真的改版了,所谓的改版并不是说首页展示内容发生了改变,而是网站源码发生了非常大的改动,怪不得媳妇告诉我说已经很长时间没有看到猎聘网站的数据了。
我发现猎聘网址里面有大量的加密字符,就比如下面这段链接
https://www.liepin.com/zhaopin/?headId=aa0ef6ac3cea8a78571b4eebfcdbe431&ckId=zrt4l299yiir10gqf33jcdiq79pwwi38&oldCkId=aa0ef6ac3cea8a78571b4eebfcdbe431&fkId=zgezyaa0tsc3w1zaeinoipmx030vzom9&skId=zgezyaa0tsc3w1zaeinoipmx030vzom9&sfrom=search_job_pc&key=%E5%A4%96%E8%B4%B8¤tPage=1&scene=page
正常的网页链接不会有这么多加密字符的,这段链接中有许多字符参数是每次都会发生改变,如果想要精准的获取到每一页中的数据内容,那就需要每次提前找到其中的加密字符,并且代替已有的加密字符
其实想猎聘这种操作这种升级改版也是可以理解的,毕竟好歹他也算是个还不错的招聘网站,每天都有很多想要获取企业信息数据的人去采集其中的数据,从而利用其中有效的数据进行营销或者变现
在这种举一个非常简单的例子,12306
特别是使用网页购买车票的时候,或者抢车票的时候,12306会弹出各种复杂的验证码,比如:点击博斯普鲁斯海峡,点击所有的深海鱼,点击所有的海南话,点击所有的原生矿物,点击所有的生糖氨基酸...我举得都是一些奇葩的验证,并不代表每次买票都这么难,只是12306为什么会出现这么多验证码以及奇葩的验证码?主要原因就是反爬虫。
12306是国内最牛的交通工具没有之一,可能有好十亿人没有做过飞机,但是有很多人都一定做过火车,有一些公司就盯上了类似于12306这样的国家公共数据网站,从而进行出售车票,就和之前的黄牛差不多,比如现在以及曾经有过的,抢火车票,邀请好友加速抢车票,充值会员抢火车票,等商业盈利模式。
在举一个最简单的例子,像企查查,启信宝,爱企查,他们的企业数据是从哪里来的?他们就是通过抓取工商信息抓取到的,从而盈利方式就是让用户开会员,查看更加详细的企业数据等,如果有人考这些数据做了不好且违法的事情呢?
我给媳妇抓取企业数据的原理也是类似,我帮助媳妇抓取企业数据,是为了帮助媳妇更好的做好工作,提升工作效率,方便她在公司出更多的业绩,因此有的一些招聘网站就是不想让你抓取,就比如猎聘。
不过,最终我还是破解掉了猎聘的加密字符,虽然猎聘对于网址进行了加密,但是它加密的方式不对,这就像是以前我家里没有锁,现在我为了防止坏人进入我家,我特意装上了一把锁,并且锁上了门,但是这把锁的钥匙就在锁上插着,我破解后对于猎聘的行为感觉到非常的无语和沉默,你费尽周折的升级改版加密,最后却忘记了拔下来锁上的钥匙。
如果说未来什么最值钱?我认为最值钱的一定是数据,就像现在为什么网络监管越来越严格了主要原因之一,如果没有网络安全,那一个国家都是危险的。