Python爬虫如何设置代理IP？Requests/Scrapy库配置教程

为什么爬虫需要代理IP？

当你用Python写爬虫程序去抓取网站数据时，如果短时间内从一个IP地址发出大量请求，很容易被目标网站的服务器识别出来。服务器会认为这是异常或攻击行为，从而将这个IP地址封禁。结果就是，你的爬虫再也无法从这个IP访问该网站了。这就好比你去一家店买东西，去得太频繁，店家把你拉黑了，不让你进门。

使用代理IP就像是给爬虫换上了不同的“马甲”。每次请求都通过一个不同的IP地址发出，这样就能有效分散请求，降低被目标网站封禁的风险，保证爬虫任务的稳定性和持续性。对于需要大规模、长时间采集数据的项目来说，代理IP几乎是必不可少的工具。

获取代理IP：推荐天启代理

在设置代理之前，首先需要有稳定可靠的代理IP来源。这里推荐使用天启代理的服务。天启代理提供企业级的代理IP资源，拥有全国200多个城市节点，IP可用率高达99%以上，响应延迟极低。其API接口请求时间小于1秒，非常适合需要高效、稳定IP资源的爬虫项目。

天启代理支持HTTP、HTTPS和SOCKS5三种协议，可以满足绝大多数爬虫场景的需求。其自建机房的纯净网络环境，确保了IP资源的质量和稳定性。通过其提供的API，可以便捷地获取到大量可用的代理IP。

Requests库如何设置代理IP

Requests是Python中最常用的HTTP库，设置代理非常简单。你只需要在发起请求时，通过proxies参数传入代理信息即可。

基本设置格式如下：

import requests

proxies = {
  "http": "http://用户名:密码@代理服务器地址:端口",
  "https": "https://用户名:密码@代理服务器地址:端口"
}

response = requests.get("目标网址", proxies=proxies)

如果你使用的是天启代理的API动态获取IP，可以先获取IP，再构建代理字典：

import requests

 从天启代理API获取一个IP（假设API返回格式为 "ip:port"）
def get_proxy_from_tianqi():
     这里替换成你在天启代理获取的真实API链接
    api_url = "你的天启代理API链接"
    resp = requests.get(api_url)
     假设API返回纯文本格式 IP:PORT
    proxy_ip_port = resp.text.strip()
    return proxy_ip_port

 获取代理
proxy_ip_port = get_proxy_from_tianqi()
 假设天启代理的认证方式是用户名密码，并已绑定IP白名单或使用终端IP授权
proxies = {
    "http": f"http://{proxy_ip_port}",
    "https": f"http://{proxy_ip_port}"   注意：如果代理服务器同时支持https，协议头可能也需要对应修改
}

try:
    response = requests.get("https://httpbin.org/ip", proxies=proxies, timeout=10)
    print(response.json())
except Exception as e:
    print(f"请求失败: {e}")

重要提示：在实际使用中，请务必根据天启代理提供的具体接入文档来设置认证方式（如终端IP授权或账号密码授权），并正确拼接代理地址。

Scrapy框架中配置代理IP

Scrapy是一个强大的爬虫框架，配置代理IP主要有两种方式：通过中间件（Middleware）或直接在Spider中设置。

方法一：使用下载器中间件（推荐）

这是Scrapy中最灵活、最常用的方法。你需要自定义一个下载器中间件，在其中为每个请求设置代理。

1. 在Scrapy项目的middlewares.py文件中添加以下代码：

import random

class TianqiProxyMiddleware:
    def __init__(self, proxy_list):
        self.proxy_list = proxy_list

    @classmethod
    def from_crawler(cls, crawler):
         可以从settings中读取代理IP列表，或者在这里调用天启代理API
         这里简单示例一个静态IP列表，实际应用中建议动态获取
        proxy_list = [
            "http://ip1:port1",
            "http://ip2:port2",
             ... 更多代理IP
        ]
        return cls(proxy_list)

    def process_request(self, request, spider):
         随机选择一个代理IP
        proxy = random.choice(self.proxy_list)
        request.meta['proxy'] = proxy
         如果需要账号密码认证，可以这样设置（具体看天启代理的授权方式）
         request.headers['Proxy-Authorization'] = basic_auth_header('用户名', '密码')

2. 然后，在项目的settings.py文件中启用这个中间件，并设置优先级：

DOWNLOADER_MIDDLEWARES = {
    '你的项目名.middlewares.TianqiProxyMiddleware': 100,
     ... 其他中间件
}

这种方式的好处是Scrapy框架会自动为每一个发出的请求应用代理，无需在Spider代码中手动处理。

方法二：在Spider中直接设置

如果你只想对某个特定的Spider使用代理，可以在Spider的请求中直接设置meta参数。

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'

    def start_requests(self):
         从天启代理获取IP的逻辑（此处简化）
        proxy_ip = "http://你的天启代理IP:端口"

        url = "目标网址"
        yield scrapy.Request(url,
                             meta={'proxy': proxy_ip},
                             callback=self.parse)

    def parse(self, response):
         解析响应
        pass

这种方法比较直接，适合代理IP变化不频繁或针对特定请求的场景。

代理IP使用中的常见问题与技巧（QA）

Q1: 为什么设置了代理IP，但爬虫还是被网站封了？

A: 这可能有几个原因：一是代理IP本身质量不高，可能已经被目标网站识别并封禁。天启代理的高可用率IP可以极大改善这个问题。二是请求频率仍然过高，即使更换IP，过于密集的访问也会触发反爬机制。建议在爬虫中增加随机延迟（如使用time.sleep()）。三是User-Agent等浏览器指纹信息没有更换，容易被识别为爬虫。建议配合User-Agent中间件一起使用。

Q2: 如何处理代理IP失效的情况？

A: 即使是高质量的代理IP，也可能偶尔失效。一个健壮的爬虫应该具备重试机制。在Requests中，可以使用try-except捕获异常，然后更换代理IP重试请求。在Scrapy中，可以在中间件的process_exception方法中处理异常，删除失效的代理IP，并更换新IP后重试该请求。

Q3: 天启代理支持哪些认证方式？

A: 天启代理支持两种主流的认证方式：终端IP授权和账号密码授权。终端IP授权是将你服务器的公网IP添加到白名单中，连接代理时无需输入密码，方便快捷。账号密码授权则是在代码中通过基础认证（Basic Auth）的方式传递用户名和密码，更适合动态IP或分布式爬虫环境。具体使用哪种方式，请参照天启代理的接入文档。

Q4: 如何测试代理IP是否设置成功？

A: 一个简单的方法是访问http://httpbin.org/ip或https://httpbin.org/ip。这个服务会返回你当前请求所使用的IP地址。如果你的程序返回的IP地址是你设置的代理IP，而不是你本机的真实IP，就说明代理设置成功了。

总结

为Python爬虫设置代理IP是提升数据采集成功率和稳定性的关键一步。无论是使用简单的Requests库还是强大的Scrapy框架，核心思路都是将请求通过代理服务器转发。选择像天启代理这样提供高可用率、低延迟、稳定IP资源的企业级服务商，能让你更专注于爬虫逻辑本身，而不是疲于处理IP被封、连接不稳定等问题。希望本教程能帮助你顺利配置代理IP，让你的爬虫项目运行得更加顺畅。