爬虫是用来干嘛的,怎么看待爬虫的繁殖,爬虫是用来干嘛的,怎么看待爬虫行为

一、网络爬虫的定义

网络爬虫，即网络蜘蛛，是一个很形象的名字。

　　把互联网比作蜘蛛网，那么Spider就是在互联网上爬来爬去的蜘蛛。

　　蜘蛛通过链接地址寻找网页。

　　从网站的某一页(通常是首页)开始，阅读网页的内容，找到网页中的其他链接地址，

　　然后通过这些链接地址寻找下一个网页，如此循环，直到这个网站的所有网页都被抓取。

　　如果把整个互联网看成一个网站，那么网络蜘蛛就可以利用这个原理抓取互联网上的所有网页。

　　这样，网络爬虫就是一个爬行程序，一个爬行网页的程序。

　　网络爬虫的基本操作是抓取网页。

　　那么如何才能随心所欲的得到自己想要的页面呢？

　　先说网址。

二、浏览网页的过程

抓取网页的过程其实和读者平时用IE浏览器浏览网页是一样的。

　　例如，如果您在浏览器的地址栏中键入www.baidu.com的地址。

　　其实打开网页的过程就是浏览器作为浏览“客户端”向服务器发出请求，从服务器“抓取”文件到本地，然后进行解释和展示。

　　HTML是一种标记语言，它使用标签来标记内容，解析和区分内容。

　　浏览器的作用就是对获取的HTML代码进行解析，然后将原始代码转化为我们可以直接看到的网站页面。

三、URI和URL的概念和举例

简单地说，这个URL就是http://www.baidu.com在浏览器中输入的字符串。

　　在了解URL之前，我们应该先了解URI的概念。

　　什么是URI？

　　网络上所有可用的资源，如HTML文档、图像、视频剪辑、程序等。由统一资源标识符(URI)定位。

　　URI通常由三部分组成：

　　访问资源的命名机制；

　　存储资源的主机名；

　　资源本身的名称，用路径表示。

　　比如下面的http://www.why.com.cn/myhtml/html1223/. URI；我们可以这样解释它：

　　这是一个可以通过HTTP协议访问的资源。

　　位于主机www.webmonkey.com.cn上，

　　通过路径“/html/html40”访问。

四、URL的理解和举例

　　URL是URI的子集。是Uniform Resource Locator的缩写，翻译为“统一资源定位器”。

　　一般来说，URL是描述互联网上信息资源的字符串，主要用于各种WWW客户端程序和服务器程序中。

　　URL可以用来以统一的格式描述各种信息资源，包括文件、服务器的地址和目录等。

　　URL的一般格式是(方括号[]是可选的):

　　协议：//主机名[:端口] /路径/[；参数][？查询]#片段

　　URL的格式由三部分组成：

　　第一部分是协议(或服务方式)。

　　第二部分是存储资源的主机的IP地址(有时包括端口号)。

　　第三部分是主机资源的具体地址，如目录、文件名等。

　　第一部分和第二部分由“://”符号分隔，

　　第二部分和第三部分由“/”符号分隔。

　　第一、二部分缺一不可，第三部分有时可以省略。

五、URL和URI简单比较

URI属于URL的较低层抽象，一种字符串文本标准。

　　换句话说，URI属于父类，而URL属于URI的子类。URL是URI的子集。

　　URI的定义是：统一资源标识符；

　　URL的定义是：统一资源定位符。

　　两者的区别在于，URI代表请求服务器的路径，并定义了这样的资源。

　　URL还解释了如何访问这个资源(http://)。

下面来看看两个URL的小例子。

1.HTTP协议的URL示例：

　　使用超文本传输协议HTTP为超文本信息服务提供资源。

　　例如：http://www.peopledaily.com.cn/channel/welcome.htm

　　它的电脑域名是www.peopledaily.com.cn。

　　超文本文件(文件类型：html)是目录/频道中的welcome.htm。

　　这是中国人民日报的电脑。

　　例如：http://www.rol.cn.NET/talk/talk1.htm

　　它的电脑域名是www.rol.cn.Net。

　　超文本文件(文件类型：html)是目录/talk中的talk1.htm。

　　这是莱德聊天室的地址，你可以进入莱德聊天室的1号房间。

　　更多Python视频、源代码和资料可以免费获得，电话：725638078。

2文件的URL

　　用URL表示文件时，服务器模式用file表示，后面是主机IP地址、文件访问路径(即目录)、文件名等信息。

　　有时可以省略目录和文件名，但不能省略“/”符号。

　　例如：file://FTP . yoyodyne . com/pub/files/foobar . txt

　　上面的URL代表了一个存储在主机ftp.yoyodyne.com上的pub/files/目录中的文件，它的文件名是foobar.txt

　　示例：file://ftp.yoyodyne.com/pub

　　代表主机ftp.yoyodyne.com上的目录/发布。

　　示例：file://ftp.yoyodyne.com/

　　表示主机ftp.yoyodyne.com的根目录。

　　爬虫的主要处理对象是URL，根据URL地址获取所需的文件内容，然后进一步处理。

　　因此，准确理解URL对于理解网络爬虫非常重要。

爬虫是用来干嘛的,怎么看待爬虫的繁殖,爬虫是用来干嘛的,怎么看待爬虫行为

万老网

爬虫是用来干嘛的,怎么看待爬虫的繁殖,爬虫是用来干嘛的,怎么看待爬虫行为

一、网络爬虫的定义

二、浏览网页的过程

三、URI和URL的概念和举例

四、URL的理解和举例

五、URL和URI简单比较

下面来看看两个URL的小例子。

1.HTTP协议的URL示例：

2文件的URL

猜你喜欢

最近发表

java多线程基础,java多线程编程实战指南 pdf

windows配置环境变量在哪,windows配置环境变量要不要重启

用matlab求函数的导数,matlab中求导数的函数

putty如何远程linux,putty执行命令

矩阵的特征值与特征向量的应用论文,矩阵的特征值和特征向量总结

均值方差模型算法怎么用,均值方差模型算法怎么做

django页面参数传递,django写api接口

div盒子垂直居中,css中让盒子居中

进程与cpu和线程与cpu,cpu线程和程序线程

AI智能去马赛克工具,ai去马赛克手机软件