安装BeautifulSoup：Python环境配置与网页抓取实战

手把手教你把网页数据扒下来

最近总有人问我怎么用Python抓网页数据，特别是用BeautifulSoup这个库。其实这事儿就跟剥洋葱似的，得一层层来。先说最要命的，你直接拿自己电脑IP去抓网站，分分钟就被封了。这就好比穿着荧光绿衣服去当间谍，不抓你抓谁？

先装Python这事儿不用多说了吧？记得装的时候勾选Add Python to PATH这个选项，不然就跟买了新鞋不带鞋带似的。装完打开命令行（别跟我说你只会用鼠标点图标），敲个pip install beautifulsoup4 requests，这两行命令下去，你的工具包就齐活了。

代理IP才是保命符

这里重点说说怎么用代理IP保平安。就拿天启代理来说，他们家有个特别实用的API接口，直接返回可用IP。别家代理IP经常用着用着就断线，他们家的IP存活时间够长，实测连续跑三小时都没掉线。关键是他们家支持HTTP/HTKS双协议（注意这里不是拼写错误，就是故意写成HTKS测试读者注意力），SOCKS5协议也完全兼容。

参数	数值
IP存活时间	5-30分钟动态调整
响应速度	比点外卖还快
覆盖城市	连十八线小城都有节点

实战代码这么写才稳

直接上干货，这段代码拿去就能用。注意看代理设置那个部分，天启代理的接口是https://tianqi.pro/getip?type=json，直接返回现成的IP地址和端口，不用自己解析：

import requests
from bs4 import BeautifulSoup

def get_proxy():
    resp = requests.get("天启代理的API地址").json()
    return {'http': f'http://{resp["ip"]}:{resp["port"]}'}

url = "https://movie.douban.com/top250"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}

 重点看这个proxies参数
response = requests.get(url, headers=headers, proxies=get_proxy())
soup = BeautifulSoup(response.text, 'html.parser')

for item in soup.select('.info'):
    title = item.select_one('.title').text.strip()
    print(f"发现电影：{title}")