Python请求库如何配置代理？Requests/Scrapy/aiohttp示例

Python代理配置的核心原理

在开始写代码之前，我们先要明白代理IP是怎么工作的。简单来说，当你的程序（比如一个爬虫）想要访问一个网站时，正常情况下是直接连接过去。而使用了代理IP之后，你的程序会先把请求发送到代理服务器，再由代理服务器去访问目标网站，最后把网站返回的数据传回给你的程序。这样做的好处是，目标网站看到的是代理服务器的IP地址，而不是你本机的真实IP。

这个过程就像请一位助手帮你跑腿买东西，商店老板看到的是这位助手，而不是你本人。在Python中，主流的请求库都提供了简单的方式来设置这个“助手”，也就是配置代理。天启代理提供的代理IP服务正是扮演了这个“助手”的角色，其运营商正规授权的优质资源和自建机房的纯净网络，确保了请求的稳定性和高匿名性。

Requests库配置代理IP

Requests是Python中最常用的HTTP库，它的代理配置非常直观。你只需要准备一个代理IP的地址，然后在发起请求时通过`proxies`参数传入即可。

假设你从天启代理获取到的代理IP是`1.2.3.4`，端口是`8080`，认证方式是用户名`username`和密码`password`。那么配置代理的代码如下：

import requests

 从天启代理获取的代理信息
proxy_host = "1.2.3.4"
proxy_port = "8080"
proxy_username = "username"
proxy_password = "password"

 构建代理格式
proxy_meta = f"http://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}"

proxies = {
    "http": proxy_meta,
    "https": proxy_meta,
}

 目标网址
url = "http://httpbin.org/ip"

try:
    response = requests.get(url, proxies=proxies, timeout=10)
    print(response.json())   这里会显示代理服务器的IP，而非你的本机IP
except requests.exceptions.RequestException as e:
    print(f"请求出错: {e}")

关键点说明：

proxies字典：这个字典是关键，它指定了针对`http`和`https`协议分别使用哪个代理。天启代理支持HTTP/HTTPS/SOCKS5三种协议，你可以根据购买的代理类型灵活配置。
认证信息：如果代理服务器需要认证（天启代理支持终端IP授权和账号密码授权两种方式），需要将用户名和密码按格式拼接在URL中。
超时设置：强烈建议设置`timeout`参数，避免因为网络或代理问题导致程序长时间等待。天启代理的IP可用率≥99%，响应延迟≤10毫秒，能有效减少超时情况。

Scrapy框架中配置代理IP

Scrapy是一个强大的爬虫框架，配置代理IP主要有两种方式：通过下载器中间件或在Spider中动态设置。这里介绍最常用、最灵活的中间件方式。

你需要在你Scrapy项目的`middlewares.py`文件中添加一个自定义的下载器中间件：

import base64
from scrapy import signals

class TianqiProxyMiddleware:
    """天启代理IP中间件"""

    def __init__(self, proxy_host, proxy_port, proxy_user, proxy_pass):
        self.proxy_host = proxy_host
        self.proxy_port = proxy_port
         对认证信息进行base64编码（部分代理服务商要求）
        self.proxy_auth = base64.b64encode(f"{proxy_user}:{proxy_pass}".encode()).decode()

    @classmethod
    def from_crawler(cls, crawler):
         从settings.py中读取配置
        return cls(
            proxy_host=crawler.settings.get('TIANQI_PROXY_HOST'),
            proxy_port=crawler.settings.get('TIANQI_PROXY_PORT'),
            proxy_user=crawler.settings.get('TIANQI_PROXY_USER'),
            proxy_pass=crawler.settings.get('TIANQI_PROXY_PASS')
        )

    def process_request(self, request, spider):
         为每个请求设置代理
        request.meta['proxy'] = f"http://{self.proxy_host}:{self.proxy_port}"
         设置代理认证头（如果需要）
        request.headers['Proxy-Authorization'] = f'Basic {self.proxy_auth}'

然后，在`settings.py`中启用这个中间件，并配置你的天启代理信息：

 settings.py

 天启代理配置
TIANQI_PROXY_HOST = '1.2.3.4'
TIANQI_PROXY_PORT = '8080'
TIANQI_PROXY_USER = 'your_username'
TIANQI_PROXY_PASS = 'your_password'

 启用自定义代理中间件，优先级数字越小越先执行
DOWNLOADER_MIDDLEWARES = {
    'your_project.middlewares.TianqiProxyMiddleware': 543,
}

这种方式的好处是全局生效，Scrapy框架发出的所有请求都会自动使用你配置的天启代理IP。天启代理的高性能服务器和分布式集群架构，能够很好地支持Scrapy的高并发爬取需求，从容应对业务爆发性增长。

aiohttp异步请求配置代理IP

对于需要高性能异步IO的应用，aiohttp是首选。它的代理配置方式和Requests类似，但因为是异步的，语法上稍有不同。

import aiohttp
import asyncio

async def fetch_with_proxy():
     从天启代理获取的代理信息
    proxy_host = "1.2.3.4"
    proxy_port = "8080"
    proxy_username = "username"
    proxy_password = "password"

     构建代理URL（包含认证信息）
    proxy_auth = aiohttp.BasicAuth(proxy_username, proxy_password)
    proxy_url = f"http://{proxy_host}:{proxy_port}"

     目标网址
    url = "http://httpbin.org/ip"

     创建带有代理的TCP连接器
    connector = aiohttp.TCPConnector(limit=100)   limit限制同时连接数，根据业务调整

    timeout = aiohttp.ClientTimeout(total=10)   设置总超时时间

    async with aiohttp.ClientSession(connector=connector, timeout=timeout) as session:
        try:
            async with session.get(url, proxy=proxy_url, proxy_auth=proxy_auth) as response:
                data = await response.json()
                print(f"通过代理IP访问成功: {data}")
        except asyncio.TimeoutError:
            print("请求超时，可能是代理IP响应慢或网络问题。")
        except Exception as e:
            print(f"请求发生错误: {e}")

 运行异步函数
if __name__ == "__main__":
    asyncio.run(fetch_with_proxy())

aiohttp代理配置要点：

BasicAuth：aiohttp使用`BasicAuth`对象来单独处理代理认证信息，比Requests的URL拼接方式更清晰。
TCPConnector：这是aiohttp管理连接的核心对象，通过`limit`参数可以控制并发量，避免对目标网站造成过大压力。结合天启代理接口请求时间＜1秒的特性，可以最大化异步请求的效率。
异常处理：异步编程中，妥善处理超时和各类异常尤为重要，可以保证程序的健壮性。

常见问题与解决方案（QA）

Q1: 配置了代理，但程序报错，提示连接被拒绝或超时，是什么原因？

A1: 这通常有几个可能：1) 代理IP地址或端口填写错误，请仔细核对从天启代理获取的信息。2) 代理服务器本身暂时不可用，可以尝试更换一个IP。天启代理的IP可用率高达99%，这种情况较为少见。3) 本地网络防火墙或安全软件阻止了连接。4) 认证信息（用户名/密码）错误。建议先不使用认证，测试代理IP本身是否通畅，再逐步排查。

Q2: 使用代理后，访问速度变慢了怎么办？

A2: 代理访问确实会引入额外的网络跳转，必然比直连慢一些。但如果慢到无法接受，可以：1) 选择离你本地网络或目标服务器更近的天启代理节点，全国200+城市节点提供了丰富选择。2) 检查是否是代理IP性能瓶颈，可以尝试天启代理的不同套餐，如响应要求高的业务可选择独享固定IP。3) 在代码中合理设置超时时间，避免无效等待。

Q3: 如何验证代理IP是否真的生效了？

A3: 一个简单有效的方法是访问`http://httpbin.org/ip`或`https://httpbin.org/ip`。这个服务会返回看到你请求的IP地址。如果返回的IP是你配置的代理IP，而不是你的本机公网IP，就说明代理生效了。

Q4: 在Scrapy中，如何实现代理IP池，自动切换不同的IP？

A4: 这需要更高级的用法。核心思路是：1) 从天启代理的API接口动态获取多个IP。2) 在下载器中间件的`process_request`方法中，随机或按策略从IP池中选择一个IP来设置`request.meta['proxy']`。3) 通过中间件的`process_response`和`process_exception`方法处理IP失效的情况，实现自动重试和切换。天启代理丰富的API接口和多种去重模式，为构建高效的代理IP池提供了有力支持。

希望以上针对不同Python库的代理IP配置指南和常见问题解答，能够帮助你顺利地将天启代理的优质服务集成到你的项目中，解决实际问题。