Python网页爬虫教程：Python爬虫入门指南

为什么爬虫必须关注代理IP？

当你用Python写爬虫时，最常遇到的不是代码报错，而是目标网站突然拒绝访问。很多网站会通过IP访问频率来识别爬虫行为：单个IP在短时间内高频请求，轻则返回验证码，重则直接封禁IP。这时就需要通过代理IP让请求看起来像是来自不同用户。

举个真实案例：某电商平台的价格监控爬虫，使用单IP抓取10分钟后就被限制访问。改用天启代理的动态IP池后，通过自动切换全国不同城市的IP地址，连续运行3小时未触发任何限制。

Python代理IP的三种实现方式对比

这里用表格展示不同代理方案的核心差异：

类型	优点	缺点
免费代理	零成本	可用率低于30%，响应慢
自建代理池	可控性强	维护成本高，需处理IP失效
专业服务商（如天启代理）	可用率≥99%	需支付服务费用

特别说明天启代理的自建机房纯净网络特性：不同于公共代理池，每个IP都经过运营商实名认证，有效避免因共享IP导致的连带封禁问题。

四步实现代理IP爬虫

第一步获取代理IP
使用天启代理的API接口获取最新IP池。注意选择与目标网站地区匹配的节点，例如抓取华北地区网站时优先选用北京、天津节点。

第二步请求头伪装
配合代理IP需要设置合理的User-Agent，建议使用fake_useragent库动态生成：

from fake_useragent import UserAgent
headers = {'User-Agent': UserAgent().random}

第三步代理IP验证
在正式请求前必须验证IP可用性，推荐使用双重验证机制： 1. 连接性测试：访问httpbin.org/ip确认代理生效 2. 业务验证：访问目标网站测试页（如商品详情页）

第四步异常处理
设置智能切换策略，当遇到以下情况时自动更换IP： - 响应状态码非200 - 出现验证页面特征文字 - 连续3次请求超时

实战案例：绕过反爬的完整代码

以某新闻网站为例的爬虫实现：

import requests
from retry import retry

def get_proxy():
     从天启代理API获取SOCKS5协议代理
    resp = requests.get("https://api.tianqi.proxy/socks5")
    return {'socks5': resp.json()['proxy']}

@retry(tries=3, delay=2)
def crawler(url):
    proxy = get_proxy()
    try:
        response = requests.get(url, 
            proxies=proxy,
            headers={'User-Agent': UserAgent().chrome},
            timeout=10
        )
        if "访问异常" in response.text:
            raise Exception
        return response.text
    except:
         触发天启代理自动封禁机制
        requests.post("https://api.tianqi.proxy/report", data=proxy)
        raise

代码关键点说明： 1. 使用SOCKS5协议避免特征识别 2. 自动上报失效IP提升服务质量 3. 三级超时重试机制