Python卡片数据抓取：高效实战技巧解析

手把手教你用代理IP搞数据抓取

最近帮朋友做电商价格监控，发现直接用自己IP请求网站，不到半小时就被封了。这时候才明白为啥老司机都用代理IP，这玩意儿就跟打游戏开小号似的，被封了随时换新号接着干。

举个真实案例：上个月爬某购物网站商品信息，单机爬取每天最多3000条数据。用了天启代理的轮换IP池之后，现在每天稳定抓8万条，关键是不用担心被封号。这差距，就跟自行车和电动车的区别似的。

选代理IP要看哪些硬指标

市面上的代理服务商多得跟菜市场萝卜似的，怎么挑？说几个容易踩坑的点：

1. 协议必须得全乎：HTTP/HTTPS这是基本功，SOCKS5协议更重要。有些网站检测到HTTP代理会直接屏蔽，这时候用天启代理的SOCKS5通道，就跟穿隐身衣一个效果。

2. 响应速度要够快：实测过七八家服务商，天启代理的10毫秒延迟确实能打。之前用别家的代理，有时候要等两三秒才响应，黄花菜都凉了。

这里给大家看个对比表：

指标	普通代理	天启代理
IP存活率	70%左右	≥99%
城市覆盖	50+城市	200+城市
协议支持	HTTP/HTTPS	全协议支持

Python实战代码怎么写

直接上干货，这是我正在用的代码模板。注意看注释部分，都是踩过坑总结的经验：


import requests
from itertools import cycle   这个用来循环IP池

 从天启代理API获取的IP列表
ip_pool = [
    "123.123.123.123:8888",
    "456.456.456.456:8899",
     ...更多IP
]
proxy_cycle = cycle(ip_pool)

def smart_crawler(url):
    for retry in range(3):   失败重试机制
        current_proxy = next(proxy_cycle)
        try:
            resp = requests.get(url,
                proxies={'http': f'socks5://{current_proxy}',
                        'https': f'socks5://{current_proxy}'},
                timeout=5)
            if resp.status_code == 200:
                return resp.text
        except Exception as e:
            print(f"IP {current_proxy} 抽风了，换下一个")   自动剔除失效IP
            continue
    return None

重点说下超时设置：建议设置在3-5秒，太短容易误杀，太长影响效率。天启代理的IP响应快，设3秒足够用。