爬虫是用来干嘛的,怎么看待爬虫的繁殖,爬虫是用来干嘛的,怎么看待爬虫行为
一、网络爬虫的定义
网络爬虫,即网络蜘蛛,是一个很形象的名字。把互联网比作蜘蛛网,那么Spider就是在互联网上爬来爬去的蜘蛛。
蜘蛛通过链接地址寻找网页。
从网站的某一页(通常是首页)开始,阅读网页的内容,找到网页中的其他链接地址,
然后通过这些链接地址寻找下一个网页,如此循环,直到这个网站的所有网页都被抓取。
如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。
这样,网络爬虫就是一个爬行程序,一个爬行网页的程序。
网络爬虫的基本操作是抓取网页。
那么如何才能随心所欲的得到自己想要的页面呢?
先说网址。
二、浏览网页的过程
抓取网页的过程其实和读者平时用IE浏览器浏览网页是一样的。例如,如果您在浏览器的地址栏中键入www.baidu.com的地址。
其实打开网页的过程就是浏览器作为浏览“客户端”向服务器发出请求,从服务器“抓取”文件到本地,然后进行解释和展示。
HTML是一种标记语言,它使用标签来标记内容,解析和区分内容。
浏览器的作用就是对获取的HTML代码进行解析,然后将原始代码转化为我们可以直接看到的网站页面。
三、URI和URL的概念和举例
简单地说,这个URL就是http://www.baidu.com在浏览器中输入的字符串。在了解URL之前,我们应该先了解URI的概念。
什么是URI?
网络上所有可用的资源,如HTML文档、图像、视频剪辑、程序等。由统一资源标识符(URI)定位。
URI通常由三部分组成:
访问资源的命名机制;
存储资源的主机名;
资源本身的名称,用路径表示。
比如下面的http://www.why.com.cn/myhtml/html1223/. URI;我们可以这样解释它:
这是一个可以通过HTTP协议访问的资源。
位于主机www.webmonkey.com.cn上,
通过路径“/html/html40”访问。
四、URL的理解和举例
URL是URI的子集。是Uniform Resource Locator的缩写,翻译为“统一资源定位器”。
一般来说,URL是描述互联网上信息资源的字符串,主要用于各种WWW客户端程序和服务器程序中。
URL可以用来以统一的格式描述各种信息资源,包括文件、服务器的地址和目录等。
URL的一般格式是(方括号[]是可选的):
协议://主机名[:端口] /路径/[;参数][?查询]#片段
URL的格式由三部分组成:
第一部分是协议(或服务方式)。
第二部分是存储资源的主机的IP地址(有时包括端口号)。
第三部分是主机资源的具体地址,如目录、文件名等。
第一部分和第二部分由“://”符号分隔,
第二部分和第三部分由“/”符号分隔。
第一、二部分缺一不可,第三部分有时可以省略。
五、URL和URI简单比较
URI属于URL的较低层抽象,一种字符串文本标准。换句话说,URI属于父类,而URL属于URI的子类。URL是URI的子集。
URI的定义是:统一资源标识符;
URL的定义是:统一资源定位符。
两者的区别在于,URI代表请求服务器的路径,并定义了这样的资源。
URL还解释了如何访问这个资源(http://)。
下面来看看两个URL的小例子。
1.HTTP协议的URL示例:
使用超文本传输协议HTTP为超文本信息服务提供资源。
例如:http://www.peopledaily.com.cn/channel/welcome.htm
它的电脑域名是www.peopledaily.com.cn。
超文本文件(文件类型:html)是目录/频道中的welcome.htm。
这是中国人民日报的电脑。
例如:http://www.rol.cn.NET/talk/talk1.htm
它的电脑域名是www.rol.cn.Net。
超文本文件(文件类型:html)是目录/talk中的talk1.htm。
这是莱德聊天室的地址,你可以进入莱德聊天室的1号房间。
更多Python视频、源代码和资料可以免费获得,电话:725638078。
2文件的URL
用URL表示文件时,服务器模式用file表示,后面是主机IP地址、文件访问路径(即目录)、文件名等信息。
有时可以省略目录和文件名,但不能省略“/”符号。
例如:file://FTP . yoyodyne . com/pub/files/foobar . txt
上面的URL代表了一个存储在主机ftp.yoyodyne.com上的pub/files/目录中的文件,它的文件名是foobar.txt
示例:file://ftp.yoyodyne.com/pub
代表主机ftp.yoyodyne.com上的目录/发布。
示例:file://ftp.yoyodyne.com/
表示主机ftp.yoyodyne.com的根目录。
爬虫的主要处理对象是URL,根据URL地址获取所需的文件内容,然后进一步处理。
因此,准确理解URL对于理解网络爬虫非常重要。