PHP爬虫示例：简单高效的PHP爬虫代码实例

实战PHP爬虫如何避免被封IP？

很多新手做爬虫会遇到这样的场景：代码明明没问题，但抓了几十次数据就收到网站封禁提示。这里有个容易被忽视的细节——服务器会根据请求特征识别爬虫行为。比如同一IP高频访问、固定User-Agent等特征都会触发反爬机制。

上周有个做电商比价的朋友就遇到这个问题，他们用PHP写的价格监控脚本运行不到3小时就被封了IP。这种情况使用天启代理的动态IP池就能有效解决，通过自动切换不同城市节点的IP，让目标服务器识别为正常用户访问。

PHP爬虫集成代理IP的核心代码

下面这段代码演示了如何通过天启代理的API获取IP资源，建议保存为proxy_crawler.php：

<?php
// 从天启代理获取IP的API接口
$api_url = 'https://api.tianqidaili.com/get-ip';

$options = [
    'http' => [
        'method' => 'GET',
        'header' => "Accept: application/json\r"
    ]
];

// 获取代理IP数据
$response = file_get_contents($api_url, false, stream_context_create($options));
$proxy_data = json_decode($response, true);

// 设置爬虫请求参数
$target_url = 'https://目标网站.com/data';
$user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36';

$ch = curl_init();
curl_setopt_array($ch, [
    CURLOPT_URL => $target_url,
    CURLOPT_PROXY => $proxy_data['ip'].':'.$proxy_data['port'],
    CURLOPT_PROXYTYPE => $proxy_data['type'] == 'socks5' ? CURLPROXY_SOCKS5 : CURLPROXY_HTTP,
    CURLOPT_USERAGENT => $user_agent,
    CURLOPT_TIMEOUT => 10,
    CURLOPT_RETURNTRANSFER => true
]);

$result = curl_exec($ch);
curl_close($ch);

// 处理抓取结果
if($result){
    // 数据解析逻辑...
    echo "数据抓取成功！";
}else{
    echo "抓取失败，建议检查代理配置";
}
?>