爬虫代理ip配置Scrapy中间件：完整代码实现教程

为什么爬虫需要代理IP中间件

做爬虫的朋友都遇到过这样的问题：目标网站对访问频率做了限制，同一个IP短时间内请求太多次，轻则返回验证码，重则直接封禁。这就像你反复去敲同一家的门，主人肯定会起疑心。解决这个问题的核心思路就是“换门敲”，也就是更换请求的IP地址。

手动更换IP不现实，这就需要用到代理IP。而Scrapy框架的强大之处在于，它提供了中间件机制，可以让我们在请求发出前，自动、智能地更换代理IP，整个过程对爬虫代码本身几乎无感。配置一个高效的代理IP中间件，是爬虫项目稳定、长期运行的关键。

Scrapy代理中间件的工作原理

在Scrapy中，中间件是处理请求和响应的“中间人”。代理IP中间件主要工作在“请求发出前”这个阶段。它的任务很明确：在每一个请求被发送到目标网站之前，为这个请求设置一个全新的、可用的代理IP。

这个过程通常是：爬虫生成一个请求对象 -> 请求经过下载器中间件 -> 我们的代理中间件拦截请求，为其添加`proxy`元数据 -> Scrapy下载器使用这个代理去访问目标网站。一个好的中间件不仅要会换IP，还要能处理IP失效、自动重试、并发控制等问题。

构建一个基础的代理IP中间件

下面我们从零开始，构建一个功能完整的Scrapy代理IP中间件。你需要在Scrapy项目的`middlewares.py`文件中创建一个新的类。


import random
from scrapy import signals
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware
from scrapy.exceptions import NotConfigured

class TianqiProxyMiddleware:
    """天启代理IP中间件"""

    def __init__(self, api_url, auth_key):
         初始化，传入从代理服务商获取的API地址和认证密钥
        self.api_url = api_url
        self.auth_key = auth_key
        self.proxy_list = []  用于存储获取到的代理IP列表
        self._refresh_proxies()  初始化时先获取一批IP

    @classmethod
    def from_crawler(cls, crawler):
         从settings.py中读取配置
        api_url = crawler.settings.get('TIANQI_PROXY_API')
        auth_key = crawler.settings.get('TIANQI_PROXY_AUTH_KEY')

        if not api_url or not auth_key:
            raise NotConfigured('TIANQI_PROXY_API and TIANQI_PROXY_AUTH_KEY must be set in settings.py')

        middleware = cls(api_url, auth_key)
         可以绑定Scrapy信号，例如在爬虫关闭时执行清理
        crawler.signals.connect(middleware.spider_closed, signal=signals.spider_closed)
        return middleware

    def _refresh_proxies(self):
        """从天启代理API获取一批新的代理IP"""
        import requests
        try:
             这里模拟调用天启代理的API接口。天启代理的API请求速度通常<1秒，响应极快。
             实际参数请参照天启代理官方API文档
            params = {'auth_key': self.auth_key, 'num': 10, 'format': 'json'}  示例参数
            response = requests.get(self.api_url, params=params, timeout=5)
            if response.status_code == 200:
                data = response.json()
                 假设API返回格式为 {'code':0, 'data': [{'ip':'1.1.1.1','port':8000}, ...]}
                if data.get('code') == 0:
                    self.proxy_list = [f"http://{item['ip']}:{item['port']}" for item in data.get('data', [])]
                    print(f"成功更新代理IP池，当前数量：{len(self.proxy_list)}")
                else:
                    print(f"获取代理失败：{data.get('msg')}")
            else:
                print("API请求失败")
        except Exception as e:
            print(f"刷新代理IP池时发生错误：{e}")
         如果IP池空了，可以加入一些备用代理或抛出异常
        if not self.proxy_list:
            self.proxy_list = ['http://备用代理IP:端口']  生产环境应使用更健壮的策略

    def process_request(self, request, spider):
        """为每个请求分配代理IP的核心方法"""
         如果请求已经设置了代理，或者标记了不使用代理，则跳过
        if 'proxy' in request.meta or request.meta.get('dont_proxy', False):
            return

        if not self.proxy_list:
            self._refresh_proxies()

         随机选择一个代理IP
        proxy = random.choice(self.proxy_list)
        request.meta['proxy'] = proxy
         可选：在请求头中添加代理认证信息（如果代理服务商需要）
         request.headers['Proxy-Authorization'] = basic_auth_header('username', 'password')
        spider.logger.debug(f'为请求 {request.url} 分配代理: {proxy}')

    def process_exception(self, request, exception, spider):
        """当请求发生异常时（如代理失效），处理异常"""
         如果是因为代理导致的异常，从池中移除该代理并重试请求
        proxy = request.meta.get('proxy')
        if proxy and proxy in self.proxy_list:
            spider.logger.warning(f'移除失效代理: {proxy}')
            self.proxy_list.remove(proxy)
             重新将请求放回调度器，等待下次用新代理重试
            return request

    def spider_closed(self, spider):
        """爬虫关闭时的清理工作"""
        spider.logger.info('代理中间件关闭，清理资源。')

如何配置与激活中间件

写完代码只是第一步，让Scrapy知道并使用这个中间件才是关键。你需要修改项目中的`settings.py`文件。

添加你的代理服务商配置（这里以天启代理为例）：


 settings.py

 天启代理API配置（请替换为你在天启代理后台获取的实际信息）
TIANQI_PROXY_API = 'https://api.tianqiip.com/getip'  示例API地址，请以官网为准
TIANQI_PROXY_AUTH_KEY = '你的认证密钥'

接着，找到下载器中间件的设置部分，将我们自定义的中间件添加进去，并设置一个合适的优先级（数值越小越先执行）。通常代理中间件需要较早执行：


 settings.py

DOWNLOADER_MIDDLEWARES = {
    '你的项目名.middlewares.TianqiProxyMiddleware': 100,  优先级设为100
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,  系统默认的代理中间件优先级是750，我们自定义的要先于它执行
     ... 其他中间件
}

配置完成后，运行你的爬虫，观察日志。如果看到类似“成功更新代理IP池”和“为请求分配代理”的调试信息，说明中间件已经成功工作。

高级功能与优化策略

一个基础的中间件只能解决“有无”问题，一个健壮的中间件则需要考虑更多场景。

1. IP池的动态管理与预热：不要等到IP用光了才去获取。可以设置一个阈值，例如当池中IP少于3个时，就异步调用API补充。也可以定时刷新整个IP池，确保IP新鲜度。

2. 代理IP的质量检测与打分：不是所有拿到的IP都是好用的。可以在使用前或使用后对IP进行测速和可用性检测，给IP打分。优先使用高分的IP，将连续失败的IP加入黑名单冷却一段时间。

3. 并发请求的IP分配策略：在高并发场景下，随机选择可能导致多个请求瞬间使用同一个IP。可以引入锁机制或队列，确保高并发的请求能均匀分配到不同的IP上。

4. 适配天启代理的产品特性：天启代理支持终端IP授权和账号密码授权两种方式。如果你的套餐是终端IP授权，中间件无需处理认证。如果是账号密码授权，则需要在`process_request`方法中为请求添加Proxy-Authorization头，代码示例中已给出注释提示。天启代理的多种去重模式也能通过API参数控制，确保你获取的IP池尽可能不重复。

常见问题与解决方案（QA）

Q：为什么配置了中间件，爬虫还是被网站封了？

A：代理IP只是解决了IP维度的问题。反爬是一个综合体系，还包括请求头（User-Agent）、Cookie、行为模式（访问频率、点击轨迹）等。你需要确保：1）代理IP本身质量高、匿名度够（天启代理的自建机房纯净IP在这方面表现较好）；2）配合User-Agent中间件随机切换浏览器标识；3）在爬虫中合理设置下载延迟(`DOWNLOAD_DELAY`)和自动限速(`AutoThrottle`)。

Q：代理IP中间件导致爬虫速度变慢怎么办？

A：速度变慢可能原因：1）代理IP本身响应慢。选择像天启代理这样承诺响应延迟≤10毫秒的服务商能极大改善。2）IP池太小，频繁调用API获取IP产生额外开销。适当增大单次获取IP的数量，并做好IP池的缓存和预热。3）异常处理逻辑过于频繁地重试失败请求。优化`process_exception`逻辑，对非代理问题导致的异常（如连接超时、目标网站404）不要盲目移除代理。

Q：如何针对特定网站或请求决定是否使用代理？

A：可以在爬虫中为`Request`对象的`meta`属性添加自定义标记。例如，对于不需要代理的请求，设置`request.meta['dont_proxy'] = True`。在中间件的`process_request`方法中，我们已通过判断`request.meta.get('dont_proxy', False)`来跳过了这类请求。

Q：天启代理的API返回格式和示例代码不一样怎么办？

A：示例代码中的API返回格式是假设的。在实际使用时，务必查阅天启代理最新的官方API文档，根据真实的返回JSON结构来修改`_refresh_proxies`方法中的解析逻辑。这是接入任何代理服务商最关键的一步。