Python网页爬虫教程: 代理IP解决封IP问题

一、为什么你的爬虫总被封IP？

很多新手在写Python爬虫时，经常遇到访问几十次就被目标网站封禁的情况。这就像你去超市试吃，如果每小时都去拿几十次免费试吃，店员肯定会把你拉黑。网站服务器也是同样的逻辑——频繁的相同IP访问会被视为攻击行为。

实际项目中遇到过这样的情况：某电商网站的价格监控脚本，使用单IP每小时请求500次，不到3小时就被彻底封禁。后来通过使用天启代理的动态IP池，实现了每小时自动切换300+不同城市IP，稳定运行至今。

二、代理IP的实战应用原理

代理IP相当于给你的爬虫戴了无数个「面具」。当网站封禁某个IP时，我们立即更换新IP继续工作。这里有个关键点：优质代理必须同时具备高匿名性和稳定性。

以天启代理为例的技术优势： • 真实机房IP：来自三大运营商的实体服务器IP • 毫秒级切换：接口响应速度＜1秒 • 协议全覆盖：完美适配requests、scrapy等框架

三、5步接入代理IP的代码实现

这里给出requests库的完整示例：

import requests

def get_proxy():
     从天启代理API获取最新IP
    api_url = "https://tianqi.proxy/api/get_ip"
    resp = requests.get(api_url).json()
    return f"{resp['protocol']}://{resp['ip']}:{resp['port']}"

url = "https://target-site.com/data"
headers = {'User-Agent': 'Mozilla/5.0'}

for _ in range(100):
    try:
        proxy = get_proxy()
        response = requests.get(url, 
                              proxies={"http": proxy, "https": proxy},
                              headers=headers,
                              timeout=10)
        print("成功获取数据:", response.text[:50])
    except Exception as e:
        print(f"IP {proxy} 失效，自动切换中...")

重点注意： 1. 每次请求前获取新IP（天启代理支持按需实时获取） 2. 异常处理必须包含代理失效的情况 3. 建议设置3-5秒的请求间隔