爬虫设置全局代理：确保所有请求都通过代理的3种方法

为什么爬虫需要设置全局代理？

很多刚开始接触爬虫的朋友会遇到这样的问题：明明在代码里给某个请求设置了代理，但程序一跑起来，还是会有部分请求“偷偷”走了本地网络，导致目标网站很快识别出真实IP，轻则请求被限制，重则IP被封禁。这是因为没有做到真正的全局代理。所谓全局代理，就是确保你程序发出的每一个网络请求，无论是显式设置的还是第三方库发起的，都自动通过代理IP转发。这对于需要高匿性和稳定性的爬虫任务来说至关重要。使用像天启代理这样的高质量IP服务，可以有效避免因IP问题导致的中断。

方法一：操作系统层面设置全局代理

这是最彻底的一种方法，它直接在操作系统上配置代理。一旦设置成功，这台电脑上所有软件（包括你的爬虫程序、浏览器等）的网络请求都会默认走代理。

Windows系统设置步骤：

1. 打开“设置” -> “网络和Internet” -> “代理”。
2. 在“手动设置代理”部分，打开“使用代理服务器”开关。
3. 填入从天启代理获取的代理服务器地址（IP或域名）和端口号。例如，地址是 `proxy.tianqidaili.com`，端口是 `8080`。
4. 点击保存。

优点： 设置简单，一劳永逸，对所有应用程序生效，无需修改代码。
缺点： 不够灵活，会影响整台机器的所有网络活动。如果代理IP失效，会导致所有网络连接中断。天启代理IP的高可用率（≥99%）和低（≤10毫秒）特性，能极大降低这种风险，保证系统级代理的稳定性。

方法二：编程语言内置的全局代理设置

对于Python的Requests库这类广泛使用的工具，虽然它本身没有直接的“全局模式”，但我们可以通过设置环境变量或覆写库的默认行为来模拟全局效果。

通过环境变量设置：

在启动你的Python脚本之前，先设置系统环境变量。你的爬虫脚本中所有使用`requests.get()`等方法的调用，都会自动使用这个代理。

import os
os.environ['HTTP_PROXY'] = 'http://用户名:密码@proxy.tianqidaili.com:8080'
os.environ['HTTPS_PROXY'] = 'http://用户名:密码@proxy.tianqidaili.com:8080'

import requests
response = requests.get('http://httpbin.org/ip')
print(response.text)   此时显示的将是代理IP

通过覆写Session对象（更推荐）：

这种方法更灵活，可以控制代理生效的范围。

import requests

 创建一个配置好代理的Session对象
session = requests.Session()
session.proxies = {
    'http': 'http://用户名:密码@proxy.tianqidaili.com:8080',
    'https': 'http://用户名:密码@proxy.tianqidaili.com:8080'
}

 之后所有使用这个session发起的请求都会走代理
response1 = session.get('http://example.com/page1')
response2 = session.get('http://example.com/page2')

天启代理支持HTTP/HTTPS/SOCKS5三种协议，你可以根据业务需求灵活选择。其API请求时间小于1秒，能确保你的爬虫程序快速获取到最新可用的IP，无缝集成到上述代码中。

方法三：使用专业的代理中间件

如果你是使用Scrapy这类专业的爬虫框架，那么使用其内置的代理中间件是最优雅、最强大的方式。Scrapy框架会自动为每一个发出的请求应用代理设置。

步骤：

1. 在Scrapy项目的`settings.py`文件中启用下载器中间件。
2. 配置代理服务器地址和认证信息。

 settings.py 文件

 启用下载器中间件
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}

 配置代理池（这里可以使用天启代理的API接口动态获取IP）
PROXY_LIST = [
    'http://user:pass@ip1:port',
    'http://user:pass@ip2:port',
     ... 从天启代理API获取的IP列表
]

 自定义一个中间件来随机或轮询使用代理IP
class RandomProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy = random.choice(PROXY_LIST)
        request.meta['proxy'] = proxy

然后将自定义的`RandomProxyMiddleware`添加到`DOWNLOADER_MIDDLEWARES`中。这样，Scrapy发出的每个请求在到达目标网站前，都会先经过天启代理的服务器。天启代理的企业级服务采用高性能服务器和分布式集群架构，完美支持Scrapy框架的高并发调用，轻松应对大规模爬取任务。