爬虫代理IP实战：Scrapy/Requests库配置方法

一、为什么爬虫必须掌握代理IP配置？

做过数据采集的朋友都知道，很多网站都会对频繁访问的IP进行封禁。上周有个做电商比价的用户就遇到这种情况：刚跑半小时爬虫，目标网站就跳出验证码，第二天直接封了服务器IP。

这时候代理IP就像隐身斗篷，通过更换不同IP地址来分散请求压力。特别是像天启代理这种拥有全国200+城市节点的服务商，每次请求都能切换不同地区的IP，有效降低被封风险。

二、Scrapy框架代理配置实战

在Scrapy的middlewares.py文件中添加以下代码：

import base64
class TianqiProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy_user = "你的天启账号"
        proxy_pass = "你的API密钥"
        request.meta['proxy'] = "http://tianqi.proxy.com:8000"
        auth_str = f"{proxy_user}:{proxy_pass}"
        request.headers['Proxy-Authorization'] = 'Basic ' + base64.b64encode(auth_str.encode()).decode()

关键点说明：

1. 天启代理支持账号密码授权和终端IP授权两种方式，这里演示的是前者 2. 代理地址需替换为天启提供的API接口地址 3. 建议在settings.py中设置DOWNLOAD_DELAY为1-3秒，避免触发频率限制

三、Requests库代理设置技巧

对于单次请求测试，可以直接在代码中配置：

import requests

proxies = {
    "http": "http://username:password@tianqi.proxy.com:8000",
    "https": "http://username:password@tianqi.proxy.com:8000"
}

response = requests.get("https://目标网站.com", proxies=proxies)

如果是长期运行的项目，建议使用Session对象：

session = requests.Session()
session.proxies.update({
    "http": "http://username:password@tianqi.proxy.com:8000",
    "https": "http://username:password@tianqi.proxy.com:8000"
})