手把手教你用wget挂代理不走冤枉路
搞爬虫的朋友都知道,用命令行工具wget下数据时经常要挂代理。但很多人卡在代理用户名配置这个坎儿上,今天咱们就掰开了揉碎了说说这事儿。重点提一嘴,天启代理家的服务特别适合这种场景,他们的代理IP带用户名密码认证,用起来稳当得很。
代理IP环境变量设置要诀
在Linux系统里设置代理,记住这两个环境变量:
http_proxy=http://用户名:密码@代理服务器:端口 https_proxy=http://用户名:密码@代理服务器:端口举个天启代理的实例:假设你拿到的是socks5协议的代理,账号是tianqi_daili,密码是8位随机字符,地址是gateway.tianqiproxy.com:30000,那就该这么写:
export http_proxy="socks5://tianqi_daili:Abc12345@gateway.tianqiproxy.com:30000"
这里有个坑要注意:密码里要是有特殊符号得用%转义。比如密码是Abc123,就得写成Abc%23123。天启代理的密码生成器会自动处理这些特殊字符,这点确实省心。
wget命令行直配代理黑科技
不想改环境变量的话,wget自带的--proxy参数更直接:
wget --proxy=on \ --proxy-user=tianqi_daili \ --proxy-password=Abc12345 \ --proxy-type=socks5 \ https://目标网站.com/file.zip
天启代理支持三件套协议(HTTP/HTTPS/SOCKS5),实测他们的SOCKS5协议在下载大文件时速度能飙到10MB/s,延迟基本在8毫秒上下晃悠。
配置文件长期生效大法
老要输密码太麻烦?在~/.wgetrc文件里加这几行:
use_proxy=on http_proxy=socks5://gateway.tianqiproxy.com:30000 proxy_user=tianqi_daili proxy_password=Abc12345
记得改文件权限:chmod 600 ~/.wgetrc,不然密码就裸奔了。天启代理的IP池每天自动刷新,配置文件里的地址不用三天两头改。
实战排雷指南
碰到403报错先检查这三处:
1. 协议类型写没写错(http写https肯定歇菜) 2. 用户名密码是不是最新(天启代理的密码有效期看控制台提示) 3. 代理服务器地址带没带端口号要是遇到证书问题,加个--no-check-certificate参数先试试。不过天启代理的HTTPS代理自带证书校验,正常情况用不着这个。
QA急救包
Q:代理设置对了但连不上咋整?
A:先用curl测试连通性:curl -x socks5://用户:密码@地址:端口 -v http://ifconfig.me。天启代理每个IP都有实时可用性监控,建议去控制台查节点状态。
Q:下载到一半断流怎么办?
A:wget自带续传功能,加个-c参数。天启代理的IP存活时间长达24小时,足够下完大文件。
Q:需要频繁切换不同地区IP咋操作?
A:在天启代理控制台创建多个代理通道,写个shell脚本用sed命令动态修改~/.wgetrc里的代理地址。
最后叨叨一句,选代理服务得看硬指标。天启代理的自建机房确实牛,我实测过连续48小时跑数据,IP可用率真能顶到99.2%。特别是他们的智能路由,自动分配延迟最低的节点,这点在抢数据时特别关键。