爬虫代理IP设置教程，Scrapy框架怎么配置

为什么爬虫需要代理IP？

当你用爬虫程序频繁访问同一个网站时，你的真实IP地址很容易被网站的防御系统识别出来。一旦被识别，轻则限制访问速度，重则直接将你的IP封禁，导致爬虫工作无法继续。这就好比你去同一个商店太多次，店员一眼就认出你了，可能就不再欢迎你进门。

使用代理IP的核心目的，就是为了隐藏你的真实IP，让你的爬虫请求看起来像是从大量不同的普通用户那里发出的，从而有效规避目标网站的反爬机制，保证数据采集任务的稳定性和效率。

Scrapy框架中代理IP的工作原理

在Scrapy框架里，代理IP的设置主要通过在下载中间件（Downloader Middleware）中处理请求（Request）来实现。简单来说，就是当一个请求被Scrapy引擎发送出去之前，我们会先“拦截”这个请求，然后给它换上一个代理IP的“外衣”，再发送给目标网站。这样，目标网站看到的就是代理服务器的IP，而不是你爬虫服务器的真实IP。

这个过程对爬虫开发者是透明的，你只需要正确地配置好中间件，Scrapy就会自动为每一个请求穿上这件“外衣”。

如何获取稳定的代理IP？天启代理的优势

代理IP的稳定性是爬虫成功的关键。不稳定的代理IP会导致请求失败率高，爬取速度慢，甚至因IP质量差而被目标网站关联封禁。选择一个可靠的代理IP服务商至关重要。

天启代理作为企业级代理IP服务商，其产品特点能很好地满足Scrapy爬虫的需求：

高可用性与速度：IP可用率≥99%，响应延迟≤10毫秒，这意味着你的爬虫几乎不会因为代理IP本身的问题而中断或变慢。
纯净网络环境：自建机房，一手IP资源，有效降低了IP被目标网站污染的风险。
协议全面：支持HTTP/HTTPS/SOCKS5协议，与Scrapy框架完美兼容。
灵活的获取方式：通过API接口可以快捷地获取到海量IP，方便集成到自动化爬虫系统中。

这些特性保证了爬虫能够获得持续、干净、高速的代理IP支持。

Scrapy配置代理IP的两种核心方法

接下来，我们进入实战环节，看看如何在Scrapy项目中具体配置代理IP。

方法一：在Request中直接设置代理（适合少量固定代理）

这种方法最为直接，适用于测试阶段或者需要使用少量长效静态IP的场景。你只需要在构造Request对象时，通过`meta`参数指定代理。

示例代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'example'
    def start_requests(self):
         从天启代理API获取的IP和端口
        proxy = "http://123.45.67.89:8080"
        url = 'http://httpbin.org/ip'
        yield scrapy.Request(url, meta={'proxy': proxy}, callback=self.parse)

    def parse(self, response):
         打印返回的IP信息，验证代理是否生效
        print(response.text)

这种方法的优点是简单明了，缺点是需要手动管理IP，不适合大规模动态切换IP的爬虫项目。

方法二：通过下载中间件自动设置代理（推荐，适合生产环境）

这是最常用、最专业的方法。通过自定义下载中间件，我们可以实现代理IP的自动轮换、失效剔除等高级功能。

第一步：创建中间件文件

在你的Scrapy项目中的`middlewares.py`文件里，添加一个自定义的代理中间件类。

第二步：编写代理中间件逻辑

核心是重写`process_request`方法。这里我们演示如何集成天启代理的API接口，动态获取IP。

import random
import requests
from scrapy import signals

class TianqiProxyMiddleware:
    """天启代理IP中间件"""

    def __init__(self, api_url):
        self.api_url = api_url   天启代理的API获取地址

    @classmethod
    def from_crawler(cls, crawler):
         从settings.py中读取配置
        api_url = crawler.settings.get('TIANQI_PROXY_API')
        middleware = cls(api_url)
        crawler.signals.connect(middleware.spider_opened, signals.spider_opened)
        return middleware

    def spider_opened(self, spider):
        spider.logger.info('天启代理中间件已开启。')

    def process_request(self, request, spider):
         如果请求已经设置了代理，则不再处理
        if 'proxy' in request.meta:
            return

        try:
             调用天启代理API获取一个IP
            resp = requests.get(self.api_url)
            if resp.status_code == 200:
                proxy_ip = resp.text.strip()
                 为请求设置代理
                request.meta['proxy'] = f'http://{proxy_ip}'
                spider.logger.debug(f'为请求设置代理: {proxy_ip}')
            else:
                spider.logger.error(f'获取代理IP失败，状态码: {resp.status_code}')
        except Exception as e:
            spider.logger.error(f'获取代理IP时发生错误: {e}')

第三步：在settings.py中启用中间件

需要将自定义的中间件添加到Scrapy的设置中，并配置好天启代理的API地址。

 settings.py

 天启代理API地址（请替换成你自己的实际API链接）
TIANQI_PROXY_API = 'https://api.tianqiip.com/your-api-link'

 禁用默认的User-Agent中间件，启用自定义的代理中间件
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'your_project_name.middlewares.TianqiProxyMiddleware': 543,  优先级数字，越小越先执行
}

通过这种方式，Scrapy在发送每个请求前都会自动通过天启代理的API获取一个新鲜IP并设置好，实现了完全自动化的代理IP管理。

实战技巧与注意事项

仅仅配置好代理还不够，要想爬虫跑得稳，还需要注意以下几点：

代理IP验证：在将IP加入爬虫队列前，最好先进行一次有效性验证，比如访问`http://httpbin.org/ip`看返回的IP是否与设置的代理IP一致。
异常处理：在中间件中增加`process_exception`方法，当请求因代理失败时，可以标记该IP失效并更换新IP重试。
并发控制：即使使用代理，过高的并发请求仍然可能触发网站的风控。请合理设置Scrapy的`CONCURRENT_REQUESTS`参数。
结合User-Agent：代理IP最好与随机的User-Agent配合使用，模拟真实浏览器的行为，效果更佳。