R语言网页抓取：高效方法与实战案例解析

当爬虫遇上反爬，代理IP怎么帮你续命？

玩过网页抓取的伙计们都知道，服务器那帮反爬机制就跟地铁安检似的，逮着频繁进出的就拉黑。这时候代理IP就像临时身份证，让爬虫能换个马甲继续干活。咱们今天就用R语言实操，看看怎么用天启代理的IP池子破这个局。

R语言抓取基本功得练扎实

先装好rvest和httr这两个包，新手别急着上代理。用rvest直接请求网站试试水，就像这样：

library(rvest)
basic_crawl <- read_html("https://target-site.com")

要是返回403错误，恭喜你撞墙了。这时候就得请出代理IP这个救兵，但别用那些免费代理——十个里有九个是坑，剩下那个早被玩坏了。

天启代理接入实战四步走

这里用天启代理的HTTP接口举例，他家接口响应快（实测<1秒），节点覆盖广。配置代理分这几个关键点：

参数	值示例	注意事项
代理协议	http/https	根据目标网站协议选
IP地址	api.tianqi.proxy/get	调用天启API获取
端口号	8080或随机分配	注意白名单设置
认证信息	username:password	天启后台可生成

代码这么改：

proxy_config <- use_proxy(
  url = "天启代理提供的接入地址",
  port = 端口号,
  username = "你的账号",
  password = "动态密钥"
)

safe_crawl <- GET("https://target-site.com", proxy_config) %>% 
  content("parsed")

真实案例：突破电商价格监控

去年帮某比价平台做数据采集，对方用了IP访问频次限制+UserAgent检测双重防护。我们的解决方案是：

用天启的城市节点IP轮换，每5次请求换IP
配合随机生成UserAgent头信息
设置3秒随机延迟避免规律访问

关键代码片段：

for(i in 1:100){
  current_ip <- 从天启API获取新IP()
  ua <- 随机生成UserAgent()
  
  result <- GET(url, add_headers(`User-Agent` = ua),
               use_proxy(current_ip$url, current_ip$port)) 
  
  Sys.sleep(runif(1,2,5))
}