设置代理ip 爬虫：Python爬虫代理配置教程

一、为什么爬虫必须用代理IP？

做过数据采集的朋友都知道，目标网站的反爬机制就像安检门一样严格。当你频繁用同一个IP访问时，轻则限制访问速度，重则直接封禁IP。这时候代理IP就相当于动态变换身份的马甲，让服务器以为每次请求都是新用户。

特别是需要采集高频数据的场景（比如商品比价、舆情监控），普通家用宽带IP可能撑不过半小时就会被识别。而像天启代理这类专业服务商，通过全国200+城市节点轮换，配合≥99%的可用率，能有效规避封禁风险。

二、Python配置代理的三种姿势

这里以最常用的requests库为例，演示不同协议代理的设置方法：

 HTTP/HTTPS协议
proxies = {
    'http': 'http://用户名:密码@ip:端口',
    'https': 'http://用户名:密码@ip:端口'
}

 SOCKS5协议
proxies = {
    'http': 'socks5://用户:密码@ip:端口',
    'https': 'socks5://用户:密码@ip:端口'
}

response = requests.get('目标网址', proxies=proxies)

如果用Scrapy框架，在settings.py中添加：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 400,
}

HTTP_PROXY = 'http://用户:密码@ip:端口'

三、天启代理的实战集成方案

直接对接API接口是最省事的做法。以天启代理的动态IP池为例，他们的API响应速度＜1秒，拿到IP就能直接用：

import requests

def get_proxy():
     从天启代理API获取IP
    resp = requests.get('天启API地址')
    return f"http://{resp.json()['ip']}:{resp.json()['port']}"

 自动更换代理的请求方法  
def smart_request(url):
    for _ in range(3):   失败重试3次
        try:
            proxies = {'http': get_proxy(), 'https': get_proxy()}
            return requests.get(url, proxies=proxies, timeout=10)
        except Exception as e:
            print(f'第{_+1}次请求失败，更换代理重试')
    return None

四、不同业务场景的代理选型

业务类型	推荐方案	天启代理优势
短时高频采集	3-30分钟动态IP	0.005元/IP起，自动切换
长期稳定连接	1-24小时静态IP	独享带宽，响应延迟≤10ms
企业级数据中台	定制HTTP服务	支持终端IP授权和账号密码双认证