Linux wget 递归 下载整站

本文讲的是扒取w3school网站内容
 wget 是用于从网站下载资源的 linux 命令。
wget http://www.w3school.com.cn
递归下载:
wget -r http://www.w3school.com.cn
添加user-agent(浏览器头信息):
wget -r -p -U Mozilla http://www.w3school.com.cn
为了避免被网站加入黑名单,我们可以限制下载的速度以及两次下载之间的等待时间:
wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.w3school.com.cn


下载指定目录下文件,使用--no-parent
//只下载 '/php' 下的所有页面
wget --wait=20 --limit-rate=20K --no-parent -r -p -U Mozilla http://www.w3school.com.cn/php/index.asp
 
相关文章:
linux wget命令

0 个评论

要回复文章请先登录注册