python爬虫代理ip设置：Requests与Scrapy框架配置教程

为什么爬虫需要代理IP

做爬虫的朋友应该都遇到过这种情况：代码跑得好好的，突然就报错了，一看是目标网站返回了403或者429状态码。这多半是IP被识别为爬虫，触发了反爬机制。一个IP频繁访问同一个网站，就像同一个人短时间内反复进出同一家商店，很容易引起注意。

代理IP的作用就在这里，它相当于一个“中间人”。你的请求先发给代理服务器，再由代理服务器转发给目标网站。对目标网站来说，请求来自代理IP，而不是你的真实IP。通过轮换使用不同的代理IP，可以将请求分散到多个IP上，大大降低被封锁的风险。

选择一个稳定可靠的代理服务至关重要。天启代理提供的代理IP资源由运营商正规授权，自建机房保证了网络的纯净度，IP可用率高达99%以上，这对于需要长时间稳定运行的爬虫任务来说是基础保障。

Requests库如何设置代理IP

Requests是Python中最常用的HTTP库，设置代理非常简单。主要通过在请求中传递proxies参数来实现。

基本设置方法：

你需要构建一个代理字典，指定协议和对应的代理地址。天启代理支持HTTP、HTTPS和SOCKS5三种协议，你可以根据需求灵活选择。

import requests

 从天启代理获取的代理服务器信息（示例）
proxy_host = "tianqi.proxy.com"   代理服务器地址
proxy_port = "9020"               端口
proxy_username = "your_username"  天启代理账号
proxy_password = "your_password"  天启代理密码

 构建代理格式（包含认证信息）
proxy_http = f"http://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}"
proxy_https = f"https://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}"

proxies = {
    'http': proxy_http,
    'https': proxy_https,
}

try:
    response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
    print(response.json())   这里会显示代理IP的信息，而非你的真实IP
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

高级技巧：IP池自动轮换

单个代理IP长期使用同样有风险，最佳实践是使用IP池进行自动轮换。你可以利用天启代理提供的API接口，动态获取一批IP，然后在每次请求时随机选取一个。

import requests
import random

 假设你从天启代理API获取到了一个IP列表
ip_list = [
    "http://user:pass@ip1:port1",
    "http://user:pass@ip2:port2",
    "http://user:pass@ip3:port3",
     ... 更多IP
]

def get_with_random_proxy(url):
    proxy = random.choice(ip_list)
    proxies = {'http': proxy, 'https': proxy}
    try:
        response = requests.get(url, proxies=proxies, timeout=8)
        return response
    except:
         如果某个IP失败，可以从池中移除或记录错误
        return None

 使用示例
response = get_with_random_proxy('https://目标网站.com')

天启代理的API请求时间小于1秒，响应延迟极低，非常适合这种需要高频、动态获取IP的场景，确保你的爬虫效率不受影响。

Scrapy框架中配置代理IP的几种方式

Scrapy是专业的爬虫框架，配置代理更加灵活，主要有两种方法：通过Downloader Middleware（下载器中间件）和直接在Spider中设置。

方法一：使用下载器中间件（推荐）

这是最常用、最规范的方法。中间件可以拦截所有请求，自动为其添加代理，实现全局管理。

在项目的middlewares.py文件中创建一个新的中间件类：

import random
from scrapy import signals

class TianqiProxyMiddleware(object):

    def __init__(self, proxy_list):
        self.proxy_list = proxy_list

    @classmethod
    def from_crawler(cls, crawler):
         从天启代理API或其他配置源加载IP列表
        proxy_list = [
            "http://user:pass@ip1:port1",
            "http://user:pass@ip2:port2",
        ]
        return cls(proxy_list)

    def process_request(self, request, spider):
         随机选择一个代理
        proxy = random.choice(self.proxy_list)
        request.meta['proxy'] = proxy
         如果你的代理需要单独认证，也可以在这里设置
         request.headers['Proxy-Authorization'] = basic_auth_header('user', 'pass')

然后，在settings.py中启用这个中间件，并设置优先级（数字越小优先级越高）：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.TianqiProxyMiddleware': 100,
}

方法二：在Spider中为单个请求设置

如果只是特定请求需要使用代理，可以在生成Request对象时，通过meta参数指定。

import scrapy

class MySpider(scrapy.Spider):
    name = 'example'

    def start_requests(self):
        url = 'http://目标网站.com'
        proxy = "http://user:pass@tianqi.proxy.com:9020"
        yield scrapy.Request(url, meta={'proxy': proxy}, callback=self.parse)

    def parse(self, response):
         解析页面
        pass

对于需要高并发的企业级爬虫项目，天启代理的高性能服务器和分布式集群架构可以很好地支撑，避免在业务量爆发时出现IP资源瓶颈。

处理代理IP失效和异常

再好的代理服务也不能保证100%每个IP永远可用。网络波动、目标网站策略调整都可能导致个别IP暂时失效。健壮的爬虫必须要有错误重试和失效IP剔除机制。

在Scrapy中，你可以利用内置的Retry Middleware，并自定义其行为。当请求因代理失败（如连接超时、被拒绝）时，中间件会自动重试，并更换代理。

 在settings.py中设置重试中间件和参数
RETRY_ENABLED = True
RETRY_TIMES = 2   重试次数
RETRY_HTTP_CODES = [500, 502, 503, 504, 408, 403]   需要重试的状态码

 在你的代理中间件中处理异常
def process_exception(self, request, exception, spider):
     当请求出现异常时，可以在这里记录失效的代理IP
    failed_proxy = request.meta.get('proxy')
    if failed_proxy:
         将失效IP从IP池中移除
        self.remove_failed_proxy(failed_proxy)
     返回None，Scrapy会继续让其他中间件或重试机制处理这个异常
    return None

天启代理提供的资源自由去重功能，可以帮助你有效过滤重复资源，结合自身的IP池管理，能进一步提升IP的利用效率和稳定性。

常见问题QA

Q1: 测试时代理IP是成功的，但正式爬取时大量失败，可能是什么原因？

A1: 最常见的原因有三个：一是IP质量不高，匿名度不够，被目标网站轻易识别。天启代理的自建机房纯净网络，IP纯净度高，能有效避免此问题。二是并发过高，超过了代理服务器的处理能力。三是目标网站有更复杂的反爬策略，如验证码、JA3指纹等，需要配合其他反反爬措施。

Q2: 我应该选择动态短效IP还是长效静态IP？

A2: 这取决于你的业务场景。对于需要高频次、大规模抓取，且对IP唯一性要求不极端的任务，3-30分钟的动态短效IP成本更低，IP池更庞大，适合普通爬虫。而对于需要维持会话（如保持登录状态）、模拟固定用户行为或访问对IP稳定性要求极高的API时，则选择1-24小时的长效静态IP更合适。天启代理两种类型都有提供，可以灵活选择。

Q3: 设置了代理后，爬虫速度变慢了很多怎么办？

A3: 速度变慢主要和代理服务器的网络延迟和带宽有关。检查代理服务器的地理位置，尽量选择离目标网站服务器或你自己网络较近的节点。天启代理拥有全国200+城市节点，可以有效选择最优线路。检查是否是IP并发过高导致服务器负载过大，适当降低并发速度。确保你的代码中没有不必要的延时，并设置合理的超时时间，避免在无效IP上等待过久。