Python使用网络代理获取数据：Requests/Scrapy库配置大全

代理IP到底能帮你解决哪些实际问题？

很多刚接触网络爬虫的朋友，可能会遇到这样的困扰：明明代码写得没问题，但目标网站就是频繁地拒绝访问，或者干脆把IP给封了。这背后的原因很简单，当你的请求频率过高，或者访问行为过于规律时，网站服务器会认为这是机器人在操作，从而采取限制措施。这时候，代理IP就派上用场了。它的核心作用，是帮你更换网络出口的IP地址。想象一下，你从一个固定的地址去敲门，主人可能会厌烦；但如果你每次都用不同的身份和地址去敲门，被认出来的几率就大大降低了。代理IP正是这个原理，它能有效分散请求，降低单个IP的访问频率，从而绕过反爬机制，让你的数据获取工作顺利进行。

Requests库配置代理IP的几种实战方法

Requests是Python中最简单易用的HTTP库，配置代理也非常直观。最基本的方式是在发起请求时，通过 `proxies` 参数传入代理信息。

基础配置示例：

假设你从天启代理获取到的代理IP是 `1.2.3.4`，端口是 `8080`，并且需要用户名密码认证（天启代理支持终端IP授权和账号密码授权两种方式，这里以账号密码为例）。

```python import requests 你的代理服务器信息（从天启代理获取） proxy_host = "1.2.3.4" proxy_port = "8080" proxy_username = "你的天启代理用户名" proxy_password = "你的天启代理密码" 构建代理格式 proxies = { "http": f"http://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}", "https": f"http://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}" 注意：很多HTTP代理也支持HTTPS，但协议头可能仍是http } 使用代理发起请求 try: response = requests.get("http://httpbin.org/ip", proxies=proxies, timeout=10) print(response.json()) 这里会显示代理服务器的IP，而非你本机的IP except requests.exceptions.RequestException as e: print(f"请求出错: {e}") ```

进阶技巧：使用Session对象

如果你的程序需要连续发起多个请求，为每个请求都单独配置 `proxies` 会很麻烦。使用 `Session` 对象可以一次性设置好代理，后续所有通过该Session发起的请求都会自动使用代理。

```python import requests 创建Session对象 s = requests.Session() 为Session配置代理 s.proxies.update({ "http": "http://用户名:密码@1.2.3.4:8080", "https": "http://用户名:密码@1.2.3.4:8080" }) 后续所有请求都无需再指定proxies response1 = s.get("http://example.com/page1") response2 = s.get("http://example.com/page2") ```

动态代理IP池的实践

单个代理IP长时间使用同样有被封锁的风险。更可靠的做法是构建一个代理IP池，从服务商（如天启代理）的API接口动态获取一批IP，然后随机轮换使用。天启代理的API接口请求时间小于1秒，且IP可用率高达99%以上，非常适合这种场景。

```python import requests import random 从天启代理API获取IP列表的函数（示例URL，请替换为天启代理实际提供的API） def fetch_proxy_ips(api_url): try: resp = requests.get(api_url).json() 假设API返回格式为 {"code":0, "data": [{"ip":"1.2.3.4", "port":8080}, ...]} if resp.get("code") == 0: return resp.get("data", []) except: pass return [] 初始化代理IP池 proxy_pool = fetch_proxy_ips("https://你的天启代理API地址") def get_random_proxy(): """从IP池中随机选择一个代理""" if not proxy_pool: print("代理池为空，正在重新获取...") global proxy_pool proxy_pool = fetch_proxy_ips("https://你的天启代理API地址") if proxy_pool: proxy_info = random.choice(proxy_pool) 构建带认证的代理字符串 formatted_proxy = { "http": f"http://{proxy_username}:{proxy_password}@{proxy_info['ip']}:{proxy_info['port']}", "https": f"http://{proxy_username}:{proxy_password}@{proxy_info['ip']}:{proxy_info['port']}" } return formatted_proxy else: return None 使用随机代理发起请求 proxy = get_random_proxy() if proxy: response = requests.get("目标网址", proxies=proxy) else: print("无法获取有效代理") ```

Scrapy框架中集成代理IP的完整指南

Scrapy是一个强大的爬虫框架，集成代理IP主要通过编写下载中间件（Downloader Middleware）来实现。这种方法可以对整个爬虫的请求过程进行精细控制。

第一步：创建自定义中间件

在你的Scrapy项目中的 `middlewares.py` 文件里，添加以下代码：

```python import random import base64 class ProxyMiddleware(object): """自定义代理中间件""" 天启代理的认证信息（如果使用账号密码模式） proxy_username = '你的天启代理用户名' proxy_password = '你的天启代理密码' 从天启代理API获取的IP列表（可以提前获取或动态获取） proxy_list = [ "1.2.3.4:8080", "5.6.7.8:8090", ... 更多代理IP ] def process_request(self, request, spider): 随机选择一个代理 proxy_ip_port = random.choice(self.proxy_list) 设置代理 request.meta['proxy'] = f"http://{proxy_ip_port}" 如果代理需要认证，需要添加代理认证头 if self.proxy_username and self.proxy_password: 将用户名密码进行Base64编码 credentials = f"{self.proxy_username}:{self.proxy_password}" encoded_credentials = base64.b64encode(credentials.encode()).decode() 设置认证头 request.headers['Proxy-Authorization'] = f'Basic {encoded_credentials}' ```

第二步：在settings.py中启用中间件

打开项目的 `settings.py` 文件，找到 `DOWNLOADER_MIDDLEWARES` 配置项，启用你刚刚创建的中间件。为了确保它生效，需要将其优先级设置为一个合适的数字（比如低于默认的750）。

```python DOWNLOADER_MIDDLEWARES = { '你的项目名.middlewares.ProxyMiddleware': 100, 数值越小，优先级越高 ... 其他中间件 } ```

更智能的动态代理中间件

上面的例子使用的是静态IP列表。在实际生产环境中，结合天启代理的API，可以构建一个能自动更新、检测IP可用性的智能中间件。天启代理全国200+城市节点，自建机房纯净网络，可以有效避免IP被污染，提升采集成功率。

常见问题与解决方案（QA）

Q1: 配置了代理，但请求失败，提示连接超时或认证失败？

A1: 这是最常见的问题。请按以下步骤排查： - 检查代理IP和端口：确认从天启代理获取的IP地址和端口号是否填写正确。 - 验证认证信息：如果使用账号密码授权，请仔细核对用户名和密码。天启代理支持终端IP授权，如果你的服务器IP已绑定，则可以省略认证步骤。 - 测试网络连通性：尝试用 `ping` 命令或 `telnet` 命令测试代理服务器是否可达。 - 协议匹配：确保你的请求协议（HTTP/HTTPS）与代理服务器支持的协议匹配。天启代理同时支持HTTP/HTTPS/SOCKS5三种协议，通用性很强。

Q2: 如何判断代理IP是否真的生效了？

A2: 一个简单有效的方法是访问一些可以显示客户端IP的网站，如 `http://httpbin.org/ip` 或 `ip.cn`。如果返回的IP地址是你代理服务器的IP，而不是你的真实公网IP，就说明代理配置成功了。

Q3: 代理IP用一会儿就失效了怎么办？

A3: 这通常是因为使用的代理IP有效期较短。解决方案是使用动态IP池并实现自动切换。天启代理提供多种类型的IP，包括3-30分钟的短效动态IP和1-24小时的长效静态IP，你可以根据业务的稳定性和成本需求进行选择。在代码中加入失败重试和IP自动更换的逻辑至关重要。

Q4: 使用代理后，爬取速度变慢了是怎么回事？

A4: 代理服务器的网络延迟、带宽和负载都会影响速度。选择一家像天启代理这样拥有优质网络资源、响应延迟低（≤10毫秒）的服务商是基础。尽量选择地理位置上离你目标网站服务器较近的代理节点，可以减少网络延迟。在Scrapy中，可以适当调整 `CONCURRENT_REQUESTS`（并发请求数）等设置，找到速度和稳定性的平衡点。