常见的网站反爬策略与解决方案
最新资讯发布日期:2021-08-12 10:47:11          

1、仅限制用户IP访问频率

限制IP访问频率通常表现为:当使用本地IP收集速度高于某个频率时,会出现收集错误、页面重定向等。在cookie中存储访问者的IP信息,增加了爬虫的难度。

解决方案:

(1)当cookie中没有IP记录时,需要使用动态短效代理IP/隧道代理IP,根据网站限制IP强度,调整采集速度,购买适当的代理IP,将其设置到ForeSpider爬虫IP代理。

(2)cookie中记录IP时需要使用静态持久代理IP,根据网站的IP限制,调整采集速度,购买适量的代理IP,将其设置到ForeSpider数据采集系统IP代理处。

2、限制用户ID访问

频率限制用户标识通常表现为:收集一段时间后,停止收集/收集错误,浏览器中的页面无法显示(页面重定向、验证码、错误页面等)。)。清空浏览器浏览记录后,可以再次打开并正常显示。

在这个时候,可以查看页面的cookie,以确认服务器是否限制用户ID,当访问页面的cookie中存在UID或其他ID字符串时,表明服务器已识别了该用户ID。还有一种对UID加密的情况,这时cookie中有一串加密后的字符串。

方法:在ForeSpider采集器高级设置中使用多通道采集功能,设置最大登录用户数,设置代理IP(使用静态持久代理IP),通过模拟多用户浏览网站,解决网站ID的局限性。

3、用户IP访问频率

用户ID访问频率的双重限制通常表现为:采集一段时间后,停止采集/采集错误,页面无法显示在浏览器中(页面重定向、验证码、错误页面等)。).清空浏览器浏览记录后,再次打开即可正常显示。

爬虫设置为多通道收集后,收集一段时间后发现知识产权被封存。还可以通过观察页面cookie中是否有IP和UID/UID加密信息来判断。

解决方案:使用ForeSpider数据采集系统的高级设定中的多通道采集功能,同时打开动态IP锁定,设定代理IP(使用静态长期代理IP),设定最大登录用户数,解决网站对帐户的限制

4、限制用户帐户访问频率通常表现为:

网站需要登录,登录后收集的帐户被封存。这种情况一般是由于服务器识别用户账号,并限制用户账号访问频率导致的。

解决方案:注册多个账号,密封后更换;

5、用户账号访问频率和用户IP访问频率双重限制

一般而言,网站需要登录,登录后收集的账号被封,IP也被封。使用多通道或代理IP采集无效。这种情况是由于服务器对用户账号和访问IP双重限制导致的。

解决方案:注册多个帐户,密封后更换使用;降低收集速度,使用静态长效代理IP收集。看到这里,章,相信大家对代理IP也有很深的了解和了解,如果对代理IP和数据采集有疑问,可以关注前嗅大数据,在线联系。

看到这里,章,相信大家对代理IP也有很深的了解和了解,如果对代理IP和数据采集有疑问,可以一次联系太阳http,在线联系。


在线
咨询

售后客服

永久免费售后服务

太阳大客户经理

15305445551
微信客服
免费
套餐
意见
反馈
置顶