Python网页抓取教程：零基础实战到数据解析全攻略

当爬虫遇到反爬时，代理IP到底怎么用才靠谱？

前几天有个做电商的朋友跟我吐槽，说他们公司用Python写的价格监控脚本突然失效了。技术小哥折腾半天发现是目标网站封了IP，这时候才想起来要上代理。其实很多新手都会遇到这种"临时抱佛脚"的情况，今天咱们就来唠唠怎么系统性地用代理IP做网页抓取。

代理IP的三大救命场景

1. 网站访问频率限制（比如每5分钟只能查30次）
2. 需要多地区IP获取本地化数据（比如不同城市的天气信息）
3. 目标网站有动态验证机制（突然弹出滑块验证）

这里要特别提醒，选代理服务商千万别贪便宜。之前有客户用了某家免费代理，结果抓来的数据里混着竞争对手的钓鱼信息。像天启代理这种企业级服务商，他们的IP池都是自建机房，不存在这种串号风险。

实战代码：给requests套上防护罩

先看个典型错误案例：

import requests

url = 'https://example.com'
for i in range(100):
    response = requests.get(url)  这样连续访问铁定被封

正确姿势应该是这样（以天启代理为例）：

import requests

def get_proxy():
     从天启API获取最新代理（这里演示用，具体接口看文档）
    proxy_url = "https://api.tianqidaili.com/get"
    resp = requests.get(proxy_url).json()
    return f"{resp['protocol']}://{resp['ip']}:{resp['port']}"

for _ in range(10):
    proxy = {'http': get_proxy(), 'https': get_proxy()}
    try:
        resp = requests.get(url, proxies=proxy, timeout=5)
        print(resp.text[:100])  打印前100字符验证
    except Exception as e:
        print(f"用{proxy}请求时翻车了：{str(e)}")

避坑指南：90%新手会犯的错

问题现象	真实原因	解决方案
代理明明能用却报连接超时	没设置协议类型（比如https代理当http用）	检查天启代理返回的protocol字段
突然所有代理都失效	目标网站封了整个IP段	选用天启的混拨服务（同时支持三大运营商）
返回的数据不全或有乱码	代理服务器修改了响应内容	使用HTTPS加密传输，天启支持全协议