PySpider,pyspider官方文档

  PySpider,pyspider官方文档

  淘女郎是国人做的一个爬虫框架,我个人使用后觉得比起scrapy它优点是网页操作,效果一目了然,缺陷是网页操作,没有自动补全,大项目使用不方便,算的成也网页,输也网页了

  简单说下项目怎么安装

  安装淘女郎即可

  python3.7版本如何配置请看

  https://博客。csdn。net/weixin _ 43486804/文章/详情/104183799

  先看一下我们爬取的网页,如果有人问为什么我老爬这个网站,这个网站爬的数据可以再次使用

  #!/usr/ajdqd/env python# -*-编码:utf-8 -*-#创建于2020-02-05 16:09:11#项目:py spider _ IP来自py spider。libs。base _ Handler import * import pymongoclass Handler(基本处理程序):crawl _ config={ } def _ _ init _ _(self):#抱歉我数据库没设密码不能给你们网址self.myclient=pymongo .MongoClient( MongoDB://47.99。.:27017/)自己。mydb=self。myclient[ IP ]# mydb。验证(李航, 980207 ,mechanism= scram-sha-1 )print( successed )self。mycol=self。mydb[代理]self。IP= self。port= self。name= self。port= @ every(minutes=24 * 60)def on _ start(self):self。爬行。快戴笠。comitems():self。爬行(每个。TD。href,回调=自身。detail _ page)@ config(priority=2)def detail _ page(self,response):RES={ URL :response。URL,“title”:response . doc(“title”).text(), IP :响应。doc( table tbody:n-child(2)tr TD[data-title *= IP ]).文本()。split(), PORT :响应。doc( table tbody:n-child(2)tr TD[data-title *= PORT ]).文本()。split(), time :响应。doc( table tbody:n-child(2)tr TD[data-title *=响应速度]).文本()。split(), name :response。doc( table tbody:n-child(2)tr TD[data-title *=位置]).文本()。split()} RESS=[]for I in range(0,len(RES[ IP ]):RESS。append({ IP :RES[ IP ][I], port:res[port][i], name:res[name][i], time:RES[ time ][I]})self。mycol。插入_许多(RESS)返回RESS

  钢性铸铁怎么选择就不用说了,因为response.doc()这种钢性铸铁选择器比起语言有一点点小缺陷,不能按顺序抓取到每个元素,只会把相同元素加个空格保留起来,所以后面我用拆分()把它分割成数组,而后重写了__init__方法,加入蒙戈数据库,运行即可

PySpider,pyspider官方文档