BeautifulSoup网页抓取：Python高效数据提取实战教程

手把手教你用代理IP绕过反爬虫

现在很多网站都装了"电子门卫"，用传统方法爬数据就像拿脸撞铁门。上次有个做比价网站的朋友，刚抓了三天就被封IP，急得直跳脚。这时候就需要代理IP来当"隐身衣"，特别是像天启代理这种靠谱服务商，IP存活率能到99%以上，比街边小作坊的二手IP稳得多。

环境准备别马虎

先装好这些家伙事儿：

Python 3.8+（别用老古董版本）
requests库（建议装2.28以上版本）
beautifulsoup4（4.11.2版本亲测好用）

重点说下代理设置，用天启代理的API接口，他们的IP池覆盖全国200多个城市，自建机房网速快。举个栗子：

proxies = {
    'http': 'http://用户名:密码@proxy.tianqi.com:端口',
    'https': 'https://用户名:密码@proxy.tianqi.com:端口'
}

实战：电商价格监控

假设要抓某电商平台手机价格，三步走：

用requests发请求时带上代理参数
检查响应状态码（别傻等200，有些网站返回假数据）
用BS4精准定位元素（别用xpath，维护起来要命）

看这段代码：

from bs4 import BeautifulSoup
import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0)...'}
url = 'https://example.com/products/123'

try:
    resp = requests.get(url, proxies=proxies, headers=headers, timeout=3)
    soup = BeautifulSoup(resp.text, 'lxml')
    price_tag = soup.select_one('div.price-box > span.final-price')
    print(f"当前价格：{price_tag.text.strip()}")
except Exception as e:
    print(f"抓取出错：{str(e)}")

躲开反爬的六个诀窍

陷阱类型	破解方法
IP频率检测	用天启代理的轮换IP池，每次请求换不同出口
请求头校验	模拟真实浏览器指纹，定期更新User-Agent库
人机验证	控制访问间隔，重要数据分时段抓取
动态加载	配合Selenium做混合抓取，注意用无头模式
数据混淆	用正则表达式清洗异常字符
登录限制	维护Cookie池，别傻乎乎每次重新登录