Python代理IP设置全攻略：Requests/Scrapy库详细代码示例

代理IP到底是什么？

简单来说，代理IP就像一个中转站。当你的程序直接访问目标网站时，你的真实IP地址就暴露了。而使用代理IP后，你的请求会先发送到代理服务器，再由代理服务器去访问目标网站，这样目标网站看到的就是代理服务器的IP，而不是你的真实IP。这在数据采集、价格监控等需要大量请求的网络活动中非常有用，可以有效避免因高频访问同一IP而被目标网站限制或封禁。

为什么选择天启代理？

市面上代理服务商很多，但质量参差不齐。天启代理作为企业级服务商，有几个核心优势是普通代理无法比拟的。其代理IP资源均获得运营商正规授权，保证了来源的合法性和稳定性。天启代理在全国拥有超过200个城市的自建机房节点，构建了纯净的网络环境，这意味着IP质量更高，可用率能达到≥99%，响应延迟极低。对于需要高并发、高稳定性的业务场景来说，这些特性至关重要。

在Requests库中设置代理IP

Requests是Python中最常用的HTTP库，设置代理非常简单。你只需要在发起请求时，传递一个`proxies`参数即可。

基本设置方法：

import requests

 从天启代理API接口获取IP（这里以示例格式展示，实际需替换为天启代理提供的API）
proxy_ip = "123.123.123.123:8888"   假设从API获取到的IP是 123.123.123.123:8888

 设置代理，支持HTTP和HTTPS协议
proxies = {
    "http": "http://" + proxy_ip,
    "https": "https://" + proxy_ip,
}

 使用代理发起请求
response = requests.get("http://httpbin.org/ip", proxies=proxies)
print(response.text)   此时返回的将是代理服务器的IP地址

更常见的情况：使用账号密码认证

天启代理等服务商通常会对代理IP进行安全认证，你需要使用账号密码。格式如下：

import requests

 你的天启代理账号信息
username = "你的天启代理账号"
password = "你的天启代理密码"
proxy_ip = "从天启代理API获取的IP:端口"

 构建带认证的代理地址
proxy_url = f"http://{username}:{password}@{proxy_ip}"

proxies = {
    "http": proxy_url,
    "https": proxy_url,
}

try:
    response = requests.get("目标网址", proxies=proxies, timeout=10)
    response.raise_for_status()   检查请求是否成功
    print("请求成功！")
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

进阶技巧：构建代理IP池

单个代理IP长时间使用同样可能被限制。最佳实践是构建一个IP池，每次请求随机选择一个IP，模拟不同用户的行为。

import requests
import random

 假设你已从天启代理API获取了一批IP，并存入列表
ip_list = [
    "http://user:pass@ip1:port",
    "http://user:pass@ip2:port",
    "http://user:pass@ip3:port",
     ... 更多IP
]

def get_with_random_proxy(url):
    proxy = random.choice(ip_list)
    proxies = {"http": proxy, "https": proxy}
    try:
        response = requests.get(url, proxies=proxies, timeout=8)
        return response
    except:
         如果某个IP失败，可以从池中移除或记录错误
        return None

 使用随机代理进行请求
response = get_with_random_proxy("你的目标网址")

在Scrapy框架中设置代理IP

Scrapy是专业的爬虫框架，设置代理的方式更灵活，通常通过下载器中间件（Downloader Middleware）实现。

方法一：在Spider中直接设置（简单但不推荐用于生产）

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'

    def start_requests(self):
        url = '你的目标网址'
         从天启代理API获取一个IP
        proxy = "http://user:pass@ip:port"
        yield scrapy.Request(url, meta={'proxy': proxy})

    def parse(self, response):
         解析页面...
        pass

方法二：使用下载器中间件（推荐，可自动管理代理池）

这是Scrapy中最强大和常用的方式。你需要在项目的`middlewares.py`文件中创建一个自定义中间件。

import random
from scrapy import signals

class RandomProxyMiddleware(object):
    def __init__(self, ip_list):
         初始化时传入代理IP列表
        self.ip_list = ip_list

    @classmethod
    def from_crawler(cls, crawler):
         这个方法用于从settings中读取配置
         假设我们在settings.py中设置了PROXY_LIST为一个IP列表
        ip_list = crawler.settings.get('PROXY_LIST', [])
        return cls(ip_list)

    def process_request(self, request, spider):
         对每个请求，随机选择一个代理
        if self.ip_list and not request.meta.get('proxy'):
            proxy = random.choice(self.ip_list)
            request.meta['proxy'] = proxy
             可选：记录使用的代理，便于调试
            spider.logger.debug(f'使用代理: {proxy}')

 在settings.py中启用这个中间件，并设置IP列表

然后，在Scrapy项目的`settings.py`文件中进行配置：

 settings.py

 添加你的自定义中间件，优先级适当调高（数字越小优先级越高）
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomProxyMiddleware': 100,
     ... 其他中间件
}

 定义从天启代理获取的IP列表
PROXY_LIST = [
    "http://user:pass@ip1:port",
    "http://user:pass@ip2:port",
     ... 更多IP
]

通过这种方式，Scrapy框架会自动为每一个发出的请求分配一个随机的代理IP，实现了代理池的自动化管理。

常见问题与解决方案（QA）

Q1: 测试时代理IP明明有效，但正式运行时却频繁失败？

A：这通常是由于并发过高或IP质量不稳定导致的。天启代理提供的企业级服务采用高性能服务器和分布式集群架构，专门为高并发场景设计，其IP可用率≥99%，能有效应对业务爆发性增长。建议检查代码中的超时设置，并确保使用的代理IP套餐符合你的业务并发量需求。

Q2: 如何处理代理IP失效的情况？

A：一个健壮的程序必须考虑代理失效的容错机制。可以在代码中捕获连接超时或代理错误异常，然后从IP池中自动移除失效的IP，并记录日志。需要有一个机制（如调用天启代理的API）来不断补充新鲜、可用的IP到池中，形成一个闭环。

Q3: 目标网站仍然能检测到我在使用代理并进行了封禁怎么办？

A：这涉及到反爬虫策略的对抗。除了更换IP，你还需要注意：1) 请求头（User-Agent）的模拟和轮换，使其看起来像真实浏览器。2) 控制请求频率，加入随机延时。3) 使用天启代理的优质动态IP，其IP更接近真实用户环境，被识别出的概率更低。天启代理支持多种去重模式，可以帮助你获取更纯净的IP资源。

Q4: Scrapy中间件设置不生效可能是什么原因？

A：首先检查`settings.py`中`DOWNLOADER_MIDDLEWARES`字典的键（中间件路径）是否正确。检查优先级设置，确保你的中间件在Scrapy默认中间件之前执行（数字更小）。在中间件的`process_request`方法中加入打印日志的语句，看是否被调用，这是最直接的调试方法。

总结

掌握Python中Requests和Scrapy库的代理IP设置，是进行大规模网络数据采集的关键一步。核心在于理解其原理，并选择像天启代理这样拥有运营商正规授权资源、全国自建机房、高可用率与低延迟的可靠服务商，这能为你省去大量处理IP不稳定、连接失败等问题的时间，让你更专注于业务逻辑本身。希望本文的代码示例和思路能帮助你构建稳定高效的网络采集程序。