Python爬虫怎么设置代理ip？requests/selenium配置示例

为什么爬虫需要代理IP

当你用Python写爬虫程序时，可能会遇到一个常见问题：访问目标网站过于频繁，导致IP地址被限制或封禁。这就像你去同一个店铺太勤快，老板把你认出来不让进了。代理IP的作用，就是帮你换一个“门面”去访问，让目标网站以为每次请求都来自不同的访客，从而降低被识别的风险，提高数据采集的成功率和稳定性。

获取代理IP：以天启代理为例

在设置代理之前，你得先有代理IP。市面上有很多服务商，这里以天启代理为例进行介绍。天启代理提供企业级的代理IP服务，它的IP资源来自运营商正规授权，网络比较纯净稳定。他们支持HTTP、HTTPS和SOCKS5这三种常见的协议，这意味着无论你的爬虫目标网站是哪种协议，基本都能覆盖。

天启代理的一个特点是全国自建机房，拥有200多个城市的节点，这意味着IP的地理位置分布比较广。他们宣称IP可用率在99%以上，响应速度很快，这对于爬虫效率来说很关键。获取他们的代理IP通常是通过调用一个API接口，接口会返回一个或多个可用的IP地址和端口，格式一般是“IP:端口”。

在Requests库中设置代理IP

Requests是Python里最常用的HTTP库之一，设置代理非常简单。核心思路就是把获取到的代理IP，构造成一个字典，然后在发送请求时通过proxies参数传递进去。

假设你从天启代理的API获取到了一个HTTP代理IP是“1.2.3.4:8080”，那么代码可以这样写：

import requests

 从天启代理API获取到的代理IP（这里用示例代替）
proxy_ip = "1.2.3.4:8080"

 构造代理字典
proxies = {
    "http": f"http://{proxy_ip}",
    "https": f"http://{proxy_ip}",  注意：如果代理不支持https，这里可能也需要用http
}

url = "https://你要爬取的网站.com"

try:
    response = requests.get(url, proxies=proxies, timeout=10)
    print(response.text[:200])  打印前200字符看看效果
except requests.exceptions.ProxyError:
    print("代理连接失败，可能是IP失效了，需要更换一个。")
except Exception as e:
    print(f"请求发生错误: {e}")

几点需要注意：

1. 如果代理IP需要账号密码认证，天启代理也支持这种模式。那么代理地址的格式需要写成：http://user:pass@ip:port。

2. 在实际爬虫项目中，你通常会有一个代理IP池。每次请求随机或按顺序从池中选取一个IP使用，用完一个换下一个，这样可以更好地模拟真实用户行为。天启代理的API通常支持一次提取多个IP，方便你构建自己的IP池。

在Selenium中设置代理IP

Selenium用于模拟浏览器行为，设置代理的方式和Requests不同，需要在启动浏览器时通过选项（Options）来配置。这里以最常用的Chrome浏览器为例。

无认证代理设置：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
 添加代理服务器地址
chrome_options.add_argument('--proxy-server=http://1.2.3.4:8080')

driver = webdriver.Chrome(options=chrome_options)
driver.get("https://你要爬取的网站.com")
 ... 你的后续操作
driver.quit()

需要账号密码的代理设置：

这种情况稍微复杂点，因为Chrome原生不支持在命令行直接带用户名密码。一种常见的做法是使用一个插件（如Chrome Proxy Helper），或者更简单的方法是在代码中创建一个包含认证信息的代理扩展。这里提供一个简化示例：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

 代理信息
proxy_host = "1.2.3.4"
proxy_port = "8080"
proxy_user = "your_username"
proxy_pass = "your_password"

 创建一个Chrome插件（manifest和background.js内容）
manifest_json = """
{
    "version": "1.0.0",
    "manifest_version": 2,
    "name": "Chrome Proxy",
    "permissions": [
        "proxy",
        "tabs",
        "unlimitedStorage",
        "storage",
        "",
        "webRequest",
        "webRequestBlocking"
    ],
    "background": {
        "scripts": ["background.js"]
    }
}
"""

background_js = """
var config = {
        mode: "fixed_servers",
        rules: {
          singleProxy: {
            scheme: "http",
            host: "%s",
            port: parseInt(%s)
          },
          bypassList: ["localhost"]
        }
      };

chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

function callbackFn(details) {
    return {
        authCredentials: {
            username: "%s",
            password: "%s"
        }
    };
}

chrome.webRequest.onAuthRequired.addListener(
            callbackFn,
            {urls: [""]},
            ['blocking']
);
""" % (proxy_host, proxy_port, proxy_user, proxy_pass)

chrome_options = Options()
chrome_options.add_argument("--disable-blink-features=AutomationControlled")  可选，隐藏自动化特征
plugin_file = 'proxy_auth_plugin.zip'

 将插件文件写入并加载（这里简化了写入过程，实际需处理文件）
 通常做法是使用扩展程序文件路径，或者使用临时文件
 此处为逻辑示意，实际运行需要完善文件创建和加载步骤
 driver = webdriver.Chrome(options=chrome_options)

print("代码逻辑示意：通过创建包含认证信息的插件来加载代理。")
print(f"代理服务器：{proxy_host}:{proxy_port}")

对于Selenium，使用天启代理这类服务商时，如果IP频繁更换，你可能需要动态地重启浏览器并更新代理设置，或者寻找支持动态更换代理的插件和方法。

常见问题与解决方案（QA）

Q1：设置了代理，但爬虫还是被网站封了，怎么回事？

A：这可能有几个原因。一是代理IP质量不高，可能已经被目标网站标记为“爬虫IP”，天启代理这类自建机房的纯净IP会好一些。二是你的爬虫行为过于规律，即使IP在变，但访问频率、时间间隔、请求头等信息没有变化，还是会被识别。需要配合随机延时、更换User-Agent等手段来模拟真人。

Q2：代理IP连接超时或速度很慢怎么办？

A：首先检查代理IP本身是否可用。可以用requests或curl命令简单测试连通性和速度。如果是从天启代理这类服务商获取的IP，通常有可用率保证，慢的问题可能出在网络线路或目标网站的服务器上。可以尝试切换服务商提供的不同地区节点，选择离目标网站服务器更近或网络更优的节点。

Q3：如何管理大量的代理IP？

A：建议构建一个代理IP池。这个池子负责：1. 定时从天启代理的API接口获取新的IP；2. 定时检测池中IP的可用性和速度；3. 标记并剔除失效的IP；4. 为爬虫程序提供“取用”和“归还”IP的接口。这样可以自动化管理，确保爬虫总能用到有效的IP。

Q4：Requests和Selenium用哪个更好？

A：取决于你的目标网站。Requests轻量、速度快，适合抓取结构简单的静态页面或直接调用API接口。Selenium能执行JavaScript，模拟点击、滚动等操作，适合对付那些需要渲染、有复杂交互的反爬机制的网站。两者都可以配合代理IP使用，选择适合你任务的工具。

选择代理服务的一些考量

最后简单聊聊怎么选代理服务。除了价格，你更应该关注IP的纯净度与稳定性、可用率与速度、售后技术支持以及是否提供灵活的API和授权方式。像天启代理这样强调自建机房、掌握一手资源、提供高可用率和低延迟的服务，对于需要稳定长期运行的企业级爬虫项目来说，是比较省心的选择。他们的API调用快捷，也支持终端IP授权和账号密码授权等多种方式，能适配不同的业务安全需求。

记住，好的工具能让事情事半功倍。在爬虫工作中，一个可靠的代理IP服务，就像给你的数据采集引擎加上了“隐身”和“加速”的双重buff。