Python爬虫IP代理设置教程：Requests/Scrapy库详细配置方法

一、为什么爬虫必须掌握代理IP设置？

做过数据采集的朋友都遇到过IP被封的情况，网站的反爬机制会通过IP访问频率识别爬虫行为。使用代理IP就像给爬虫穿上了"隐身衣"，通过更换不同IP地址分散访问压力。这里推荐天启代理的HTTP服务，他们自建机房提供的动态IP可用率高达99%，特别适合需要高频切换IP的爬虫场景。

二、Requests库代理配置三步走

在Requests中使用代理IP只需修改请求参数，这里以天启代理的HTTP服务为例演示：


import requests

 天启代理支持账号密码认证（推荐企业用户使用）
proxies = {
    'http': 'http://用户名:密码@proxy.tianqidaili.com:端口',
    'https': 'http://用户名:密码@proxy.tianqidaili.com:端口'
}

 普通用户可直接使用API接口获取IP
res = requests.get('https://api.tianqidaili.com/getip', params={'type': 'json'})
ip_data = res.json()

 设置单次请求代理
response = requests.get('https://目标网站.com', 
                        proxies={'http': f'http://{ip_data["ip"]}:{ip_data["port"]}'},
                        timeout=10)

关键技巧：建议将代理配置封装成中间件，结合天启代理的自动去重功能，可避免重复使用相同IP触发反爬机制。

三、Scrapy框架深度代理集成方案

针对需要分布式爬虫的企业级用户，建议在Scrapy的middlewares.py中实现智能代理：


class TianqiProxyMiddleware(object):
    def __init__(self, api_url):
        self.api = api_url   天启代理API地址

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            api_url=crawler.settings.get('TIANQI_PROXY_API')
        )

    def process_request(self, request, spider):
         实时获取最新IP（天启API响应时间＜1秒）
        ip_data = requests.get(self.api).json()
        request.meta['proxy'] = f'http://{ip_data["ip"]}:{ip_data["port"]}'
         启用HTTPS证书验证（天启代理支持全协议）
        if 'https' in request.url:
            request.meta['proxy'] = request.meta['proxy'].replace('http://', 'https://')

在settings.py中启用中间件并配置参数：


DOWNLOADER_MIDDLEWARES = {
    '项目名.middlewares.TianqiProxyMiddleware': 543,
}
TIANQI_PROXY_API = 'https://api.tianqidaili.com/v2/obtain'   企业用户专属接口

四、实战避坑指南

问题现象	解决方案	天启功能支持
代理连接超时	设置retry中间件+检测IP存活	响应延迟≤10ms
网站SSL证书验证失败	开启HTTPS双向认证	支持HTTPS/SOCKS5协议
IP重复使用被限制	配置自动更换间隔	24小时自动去重