伪造自身IP,IP地址伪装
文章目录爬虫的伪装动态互联网协议(互联网协议)接入指南互联网协议(互联网协议)代理中间件编写环境中配置中间件博文配套视频课程:24小时实现从零到人工智能人工智能爬虫的伪装
如果不进行伪装则我们每次采用相同互联网协议(互联网协议)抓取数据时可以会被目前服务器的防火墙之别,伪装有两种:配置代理互联网协议(互联网协议)和用户代理中间件编写,需要先注册可爱的楼房
动态互联网协议(互联网协议)接入指南注册可爱的楼房之后,可以选择一元购买一小时进行动态互联网协议(互联网协议)的测试。如果购买成功打开对应的接入指南会有提示scrapy的相关配置
导入base64 #代理服务器代理服务器= http://。阿布云。com:9020 #代理隧道验证信息proxy user= h 01234567890123d proxy pass= 0123456789012345 # for python 2 proxy auth= Basic base64。b 64 encode(代理用户):代理通过)# for python 3 # proxy auth= Basic base64。URL safe _ b 64编码(字节((代理用户):代理通过), ascii)).decode( utf8 )类代理中间件(object):def process _ request(self,request,spider):request。meta[ Proxy ]=代理服务器请求。headers[代理授权]=代理授权IP代理中间件编写根据上面的接入指南,采用创建一个ProxyMiddleware配置相关的信息即可完成动态互联网协议(互联网协议)的配置
导入base64#代理服务器代理服务器= http://。阿布云。com:9020 #代理隧道验证信息Proxy _ name _ pass=b hh 59908195 o 5720d:4b 4748 D2 db D1 b 53d # for python Proxy auth=base 64。b 64 encode(Proxy _ name _ pass)类代理中间件(object):def process _ request(self,request,spider):request。meta[ Proxy ]=代理服务器请求。headers[ Proxy-Authorization ]= Basic 代理授权。解码()设置中配置中间件下载器_中间件={ #未来完成创建交互式、快速动态网页应用的网页开发技术加载豆瓣。中间件。doubandownloadermiddleware :544,# IP伪装豆瓣。proxymiddleware。proxymiddleware :542,#用户代理伪装douban.user _ agent _ middlewares .UserAgentMiddleware: 543,}