本文主要介绍wget下载整个网站(整个子目录)或特定目录。有需要的朋友可以参考一下。
使用wget命令下载父目录下的整个子目录使用wget命令下载父目录下的整个子目录。该命令如下所示:
wget-r-level=0-E-ignore-length-x-k-p-ero bots=off-NP-N http://www.remote.com/remote/presentation/dir
会将远程服务器的整个文件夹下载到您计算机的当前文件目录中。
如何使用 wget 下载一个目录下的所有文件index.html http://URL/including/files/you/want/to/download/
每个参数的含义:
-r:遍历所有子目录
-np:不去上层子目录。
-nH:不要将文件保存到主机名文件夹中。
-r index.html:不下载index.html文件。
wget下载整个网站或特定目录你需要下载某个目录下的所有文件。命令如下
www.xxx.org/pub/path/
下载时。有带外部域名的图片或链接。如果需要同时下载,请使用-H参数。
www.xxx.org/pub/path/
-c断点续传
-r递归下载,下载指定网页的一个目录(包括子目录)中的所有文件。
-nd递归下载,不创建逐层目录,将所有文件下载到当前目录。
-np递归下载不搜索上层目录,如www.xxx.org/pub/path/. WGET-C-R
如果不添加参数-np,那么将同时下载路径上面的目录pub中的其他文件
-k将绝对链接转换为相对链接,下载完整个站点后离线浏览网页。最好加上这个参数。
-L递归时不输入其他主机,如www.xxx.org/. WGET C R
如果网站中有这样的链接:
没有参数-L,Www.yyy.org将递归地下载www.yyy.org网站,就像大火烧山一样。
-p下载网页需要的所有文件,比如图片等。
-A指定要下载的文件样式列表,多个样式用逗号分隔。
-i后跟一个文件,指示要下载的URL。
还有其他的用法,是我从网上搜的,也写了出来以后自己用。
wget的常见用法
wget的使用格式
用法:wget [OPTION]… [URL]…
*使用wget进行站点镜像:
http://dsec.pku.edu.cn/~usr_name/
#或者
http://www.tldp.org/LDP/abs/html/工作组
*在不稳定的网络上下载部分下载的文件,在空闲时间下载。
wget-t 0-w 31-c http://dsec.pku.edu.cn/BBC.avi-o down . log
#或从文件列表中读入要下载的文件列表
wget-t 0-w 31-c-B ftp://dsec.pku.edu.cn/linuxsoft-I文件列表. txt -o
下行日志
以上代码也可以在网络空闲时下载使用。我的用法是:将当时不方便下载的URL链接复制到mozilla中的内存中,粘贴到文件filelist.txt中,晚上出系统前,执行上面的第二段代码。
*通过代理下载
https://sourceforge.net/projects/wvware/
可以在环境变量或wgetrc文件中设置代理。
#在环境变量中设置代理。
导出代理=http://211.90.168.94:8080/
#在~/.wgetrc中设置代理。
http _ proxy=http://proxy.yoyodyne.com:18023/
FTP _ proxy=http://proxy.yoyodyne.com:18023/
wget选项的分类列表
*开始
-v,version显示wget的版本并退出。
-h,帮助打印语法帮助
-b,后台启动并在后台执行。
-e,执行=命令
执行`中的命令。“wgetrc”格式。请参见/etc/wgetrc或~/。wgetrc格式的wgetrc。
*记录和输入文件
-o,-o,-output-FILE=FILE将记录写入文件。
-a,-a,-append-output=FILE将记录追加到文件中。
-d,调试打印调试输出
-q,安静模式(无输出)
-v,详细模式(这是默认设置)
-NV,non-verbose关闭详细模式,但不关闭安静模式。
-I,-I,-input-FILE=文件文件中出现的文件下载URL
-f,force-HTML将输入文件视为HTML文件。
-b,base=URL将URL作为相对链接的前缀,该链接出现在由-F -i参数指定的文件中。
-sslcertfile=FILE可选客户端证书
可选客户端证书的sslcertkey=keyfileKeyfile
egd-file=file指定EGD套接字的文件名。
*下载
绑定地址=地址
指定本地地址(主机名或IP,当本地区域有多个IP或名称时使用)
-t,tries=number设置链接尝试的最大次数(0表示无限制)。
-O - O-output-document=FILE将文档写入文件FILE。
-nc,-NC,-no-clobber不要覆盖现有文件或使用。#前缀。
-c,继续然后下载未完成的文件。
-progress=TYPE设置进度条标志。
-n,时间戳除非文件比本地文件新,否则不要再次下载文件。
-s,server-response打印服务器的响应。
蜘蛛不下载任何东西
-t,time out=seconds设置响应超时的秒数。
-w,wait=SECONDS两次尝试之间的间隔是秒。
-Wait retry=SECONDS在重新链接之间等待1…秒。
-random-WAIT下载之间等待0…2 *秒
-y,proxy=on/off打开或关闭代理。
-q,quota=number设置下载容量限制。
-limit-RATE=RATE=RATE限制下载速率。
*目录
-ndno-directory不创建目录。
-x,force-directory强制创建目录。
-nH,-NH,-no-host-directory不创建主机目录。
-p,-P,-directory-prefix=PREFIX将文件保存到目录前缀/…
cut-cut-dirs=NUMBER忽略数字级远程目录
* HTTP选项
HTTP-USER=USER将HTTP用户名设置为USER。
http-http-PASSwd=PASS将http密码设置为PASS。
-c,cache=开/关。允许/不允许服务器端数据缓存(通常是允许的)。
-e,html-extension用。html扩展。
ignore-Length忽略“内容长度”头字段。
-header=STRING在标题中插入字符串。
proxy-USER=USER设置-proxy-user=USER的用户名。
proxy-PASSwd=pass设置要通过的代理的密码。
-referer=URL在HTTP请求中包含“referer: URL”标头
-s,save-headers将HTTP头保存到文件中。
-u,-U,-user-AGENT=AGENT将代理的名称设置为AGENT,而不是Wget/VERSION。
No-HTTP-keep-alive关闭HTTP活动链接(永久链接)。
-cookies=不使用off cookies。
load-cookies=FILE-load-cookies=FILE启动会话前的文件文件。
Save-cookies=FILE会话结束后,将cookie保存到文件中。
* FTP选项
-nr,-NR,-don-remove-listing不删除`。“列表”文件。
-g,glob=on/off打开或关闭文件名的globbing机制。
-passive-FTP使用被动传输模式(默认)。
-active-FTP使用主动传输模式。
-retr-symlinks递归时指向文件(而不是目录)的链接。
*递归下载
-r,-递归递归下载-慎用!
-l,level=数字最大递归深度(inf或0表示无穷大)。
-delete-after现在完成后部分删除文件。
-k,convert-links将非相对链接转换为相对链接。
-k,backup-converted在转换文件X之前将其备份为X.orig。
-m,mirror相当于-r -N -l inf -nr。
-p,page-需求下载所有显示HTML文件的图片。
*递归下载中的包含和排除(接受/拒绝)
-a,accept=list分号分隔的已接受扩展名列表。
-r,reject=list分号分隔的不可接受扩展名列表。
-d,domains=list分号分隔的接受域列表。
exclude-domains=list分号分隔的不可接受域列表
follow-ftp跟踪HTML文档中的FTP链接
follow-tags=list分号分隔的跟踪HTML标记列表
-g,-G,-ignore-tags=LIST分号分隔的被忽略的HTML标记列表
-h,span-递归时主机转到外部主机
-l,relative仅跟踪相对链接。
-I,-I,-include-directory=LIST允许的目录列表
-x,-X,-exclude-directory=LIST不包括的目录列表。
-np,-NP,-no-parent不追溯到父目录。
关于wget下载整个网站(整个子目录)或特定目录的这篇文章到此为止。有关wget下载目录中所有文件的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望你以后能支持我们!