scrapy动态设置ip代理技巧：中间件随机轮换实战代码

一、为什么爬虫需要动态轮换代理IP？

搞爬虫的兄弟都懂，同一个IP疯狂请求目标网站，轻则限速封IP，重则直接封禁整个IP段。尤其是电商、社交、搜索引擎这类反爬森严的站点，固定IP等于自断生路。动态轮换代理IP的核心目的就一个：让目标网站觉得请求来自全国各地不同的“真实用户”，降低被识别为爬虫的风险。

二、Scrapy中间件：操控请求的“隐形开关”

Scrapy的中间件机制是其灵魂所在，它允许你在请求发出前、响应返回后插入自定义逻辑。我们要做的，就是在请求发出前（process_request方法），动态地、随机地给请求换上不同的代理IP，就像给爬虫不断更换“马甲”。

三、实战代码：基于天启代理的动态轮换中间件

下面是一个可直接集成到Scrapy项目的中间件代码，核心逻辑是从天启代理API获取IP池，并随机分配给每个请求：

```python 文件: middlewares.py (通常放在项目middlewares.py中) import random import requests class TianQiProxyMiddleware: """ 天启代理IP动态轮换中间件 """ 天启代理API地址 (替换为你的实际API地址) TIANQI_API_URL = "https://api.tianqiproxy.com/getip" 天启代理提供的授权信息 (账号密码模式示例) TIANQI_USERNAME = "your_tianqi_username" TIANQI_PASSWORD = "your_tianqi_password" def __init__(self): self.proxy_pool = [] 存储代理IP的池子 self.refresh_proxy_pool() 初始化时先加载一批IP def refresh_proxy_pool(self): """从天启代理API获取一批新鲜IP，放入代理池""" try: 构造天启代理API请求参数 (根据天启API文档调整) params = { 'num': 10, 一次获取10个IP 'type': 'json', 'protocol': 'http', 或https, socks5, 根据需求 'auth_mode': 'basic', 假设使用账号密码授权 'username': self.TIANQI_USERNAME, 'password': self.TIANQI_PASSWORD, 可选参数：指定地区、去重策略等，参考天启API文档 } response = requests.get(self.TIANQI_API_URL, params=params, timeout=10) response.raise_for_status() 检查请求是否成功 ip_data = response.json() if ip_data.get('code') == 0 and ip_data.get('data'): 解析天启API返回的IP列表 (格式需根据天启实际返回调整) new_proxies = [ f"http://{item['ip']}:{item['port']}" 构造代理URL for item in ip_data['data'] ] self.proxy_pool = new_proxies print(f"成功刷新代理池，当前IP数量: {len(self.proxy_pool)}") else: print(f"天启代理API返回异常: {ip_data.get('msg')}") except Exception as e: print(f"刷新天启代理池失败! 错误: {e}") def process_request(self, request, spider): """为每个请求随机分配一个代理IP""" 如果代理池空了，尝试刷新 if not self.proxy_pool: self.refresh_proxy_pool() 刷新后还是空？可能API故障或配额不足，需要处理 if not self.proxy_pool: return 暂时不加代理，让请求失败或使用其他策略从代理池随机选择一个代理 proxy = random.choice(self.proxy_pool) 将代理设置到请求的meta中 request.meta['proxy'] = proxy (可选) 记录使用的代理，方便调试 spider.logger.debug(f"为请求 {request.url} 使用代理: {proxy}") 重要：在settings.py中激活中间件 DOWNLOADER_MIDDLEWARES = { 'yourproject.middlewares.TianQiProxyMiddleware': 543, 数值需在HttpProxyMiddleware(750)之前 } ```

四、代码关键点详解与天启代理优势融合

1. 代理池的构建与刷新：核心是调用天启代理的API。天启API的响应时间<1秒和高可用率(≥99%)保证了我们能快速可靠地获取到IP。代码中使用了账号密码授权模式（auth_mode: basic），天启也支持终端IP授权，更安全便捷。

2. 随机轮换策略：每次请求前，从池子里random.choice随机挑一个IP用。天启的全国200+城市节点资源池，确保了IP的地理分布多样性，模拟真实用户效果更好。

3. 异常处理与容错：代码包含了对API请求失败、返回格式异常的处理。天启的专业技术客服724小时支持，万一遇到API调用问题也能快速解决。

4. 协议支持：代码示例中使用HTTP协议，只需修改天启API请求参数中的protocol，即可无缝切换为HTTPS或SOCKS5代理，满足不同网站的协议要求。

5. 资源纯净与稳定：天启代理的IP源自运营商正规授权和全国自建机房，保证了IP的纯净度和网络质量，响应延迟≤10毫秒，避免因代理慢拖垮爬虫效率。

五、进阶优化技巧

1. 失效IP剔除：在process_exception或process_response中检查请求是否因代理失效失败（如连接超时、403/429状态码），主动将该IP从当前proxy_pool中移除。

2. 智能调度与去重：结合天启API的资源自由去重功能（如24小时自动去重或按需过滤），在请求参数中设置去重策略，避免短时间内重复使用相同或邻近IP段。

3. 按需选择IP类型：

高频抓取/需极高匿名性： 使用天启的短效动态IP（3-30分钟），变化快，隐匿性强。
需要稳定会话/IP白名单场景： 选用天启的长效静态IP（1-24小时），稳定性高。

4. 并发控制与代理池大小：根据Scrapy的并发数(CONCURRENT_REQUESTS)合理设置每次从天启API获取的IP数量(num)，确保代理池大小略大于并发数，避免IP不够用。

六、常见问题QA

Q1: 用了代理IP还是被封，怎么办？

A1: 首先检查代理是否有效（可用性）。仅换IP是不够的！需结合：降低请求频率、设置合理延迟、随机User-Agent、处理Cookies等。天启代理的高质量IP（高可用率≥99%）能极大降低因IP质量问题导致的封禁。利用天启的全国多城市节点和多种去重模式，让IP分布更分散自然。

Q2: 天启代理的API调用有限制吗？如何保证高并发需求？

A2: 天启代理的API设计考虑到了高并发场景。其底层采用高性能服务器和分布式集群架构，能从容应对业务爆发性增长。API请求时间本身<1秒，响应极快。对于超高并发需求，建议：1) 合理设置代理池刷新频率和大小，避免频繁调用API；2) 联系天启代理咨询企业级定制服务，获取更高性能保障。

Q3: 终端IP授权和账号密码授权哪个好？

A3: 两者各有优势：