爬虫使用代理ip教程：Scrapy/Requests完整配置方法

为什么爬虫需要代理IP

当你用爬虫程序频繁访问同一个网站时，很容易被对方服务器识别出来。最常见的后果就是你的IP地址被限制访问，或者直接封禁。这会导致你的数据采集任务中断，效率大打折扣。为了解决这个问题，使用代理IP就成了一个非常有效的方法。简单来说，代理IP就像一个中间人，你的爬虫请求先发给这个中间人，再由它转发给目标网站。这样，目标网站看到的是代理IP的地址，而不是你真实的IP，从而降低了被封锁的风险。

特别是在进行大规模数据采集或者需要较高访问频率时，一个稳定可靠的代理IP服务至关重要。它不仅能帮你规避反爬机制，还能在一定程度上提高请求的稳定性。市面上有许多代理服务商，但质量参差不齐。选择一家像天启代理这样拥有运营商正规授权资源、自建机房纯净网络的服务商，能确保IP的高可用率和低延迟，让你的爬虫工作事半功倍。

Scrapy框架中配置代理IP

Scrapy是Python中一个强大的爬虫框架，配置代理IP主要通过在下载器中间件（Downloader Middleware）中实现。下面是一个清晰且实用的配置步骤。

你需要在项目的middlewares.py文件中编写一个自定义的下载器中间件。这个中间件的核心作用是在每个请求发出前，为其设置一个代理。以下是关键代码示例：

 在你的 middlewares.py 文件中添加
import random

class TianqiProxyMiddleware(object):
    def __init__(self, proxy_http_url):
         从天启代理API接口获取代理IP的地址
        self.proxy_http_url = proxy_http_url
         这里可以初始化一个IP池，或者每次实时调用API
        self.proxy_pool = []

    @classmethod
    def from_crawler(cls, crawler):
         从 settings.py 中读取天启代理的API地址
        return cls(
            proxy_http_url=crawler.settings.get('TIANQI_PROXY_API')
        )

    def process_request(self, request, spider):
         从天启代理获取一个IP（这里以动态IP池为例）
        if not self.proxy_pool:
             调用天启代理API获取一批IP，假设返回格式为 ip:port
             实际调用请参考天启代理官方API文档
             response = requests.get(self.proxy_http_url)
             self.proxy_pool = response.text.strip().split('')
            self.proxy_pool = ['111.222.333.444:8080', '555.666.777.888:8090']  示例

        proxy = random.choice(self.proxy_pool)
        request.meta['proxy'] = f'http://{proxy}'
         如果天启代理的IP需要账号密码认证，则按如下格式设置
         request.meta['proxy'] = f'http://user:pass@{proxy}'

编写好中间件后，下一步是激活它。在项目的settings.py文件中进行配置：

 设置天启代理的API接口地址（请替换为你的真实API链接）
TIANQI_PROXY_API = 'https://api.tianqiip.com/getip?key=你的密钥&num=10'

 启用自定义的代理中间件，并设置一个较高的优先级（数字越小优先级越高）
DOWNLOADER_MIDDLEWARES = {
    '你的项目名.middlewares.TianqiProxyMiddleware': 543,
     需要禁用Scrapy默认的UserAgent中间件，通常用自定义的UA中间件替代
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

这里有几个要点需要注意：第一，天启代理支持HTTP/HTTPS/SOCKS5协议，在设置request.meta[‘proxy’]时，注意协议前缀要与代理类型匹配。第二，天启代理提供终端IP授权和账号密码授权两种方式，如果你的套餐是账号密码授权，务必在代理地址中正确填写。第三，建议结合随机User-Agent中间件一起使用，进一步模拟真实浏览器行为。

Requests库中使用代理IP

对于使用Requests库进行爬虫或网络请求的开发者来说，配置代理IP更为直接。你只需要在发起请求时，通过proxies参数传入代理地址即可。

最基本的使用方法是在单个请求中设置：

import requests

 从天启代理获取的IP和端口（示例）
proxy_ip = '111.222.333.444'
proxy_port = '8080'

 构造代理字典，支持http和https协议
proxies = {
    'http': f'http://{proxy_ip}:{proxy_port}',
    'https': f'http://{proxy_ip}:{proxy_port}',  注意：如果代理是HTTP协议，这里也写http://
}

 如果需要账号密码认证
 proxies = {
     'http': f'http://用户名:密码@{proxy_ip}:{proxy_port}',
     'https': f'http://用户名:密码@{proxy_ip}:{proxy_port}',
 }

url = 'https://httpbin.org/ip'
try:
    response = requests.get(url, proxies=proxies, timeout=10)
    print(response.json())
except Exception as e:
    print(f'请求失败: {e}')

但在实际项目中，更常见的需求是使用一个IP池，让请求轮流使用不同的IP，避免单个IP过度使用。结合天启代理的API，可以这样管理IP池：

import requests
import random
import time

class TianqiProxyPool:
    def __init__(self, api_url):
        self.api_url = api_url   天启代理的API地址
        self.ip_pool = []
        self.refresh_pool()

    def refresh_pool(self):
        """调用天启代理API刷新IP池"""
        try:
             从天启代理API获取多个IP，例如10个
            resp = requests.get(self.api_url, timeout=5)
             假设API返回纯文本格式，每行一个 ip:port
            self.ip_pool = [line.strip() for line in resp.text.split('') if line.strip()]
            print(f'IP池已刷新，当前有 {len(self.ip_pool)} 个IP')
        except Exception as e:
            print(f'刷新IP池失败: {e}')
             失败时保留旧池，或使用备用方案

    def get_proxy(self):
        """从池中随机获取一个代理"""
        if not self.ip_pool:
            self.refresh_pool()
        return random.choice(self.ip_pool) if self.ip_pool else None

 使用示例
if __name__ == '__main__':
     你的天启代理API链接
    API_URL = 'https://api.tianqiip.com/getip?key=你的密钥&num=10&protocol=http'
    proxy_pool = TianqiProxyPool(API_URL)

    for i in range(15):
        proxy = proxy_pool.get_proxy()
        if not proxy:
            continue
        proxies = {'http': f'http://{proxy}', 'https': f'http://{proxy}'}
        try:
            resp = requests.get('https://httpbin.org/ip', proxies=proxies, timeout=8)
            print(f'第{i+1}次请求成功，使用的IP是: {resp.json()["origin"]}')
        except requests.exceptions.ProxyError:
            print('代理连接错误，可能IP失效，从池中移除')
            proxy_pool.ip_pool.remove(proxy)
        except Exception as e:
            print(f'请求异常: {e}')
        time.sleep(1)   礼貌爬取，控制频率

这种方法的优势在于，你可以利用天启代理IP可用率≥99％和响应延迟≤10毫秒的特点，确保IP池的质量。其API请求时间小于1秒，使得动态刷新IP池非常高效。当天启代理的IP因业务规则需要去重时，你还可以利用其API提供的多种去重模式参数，确保每次获取的IP都是新鲜的。

常见问题与解决方案（QA）

Q1: 配置了代理IP，但爬虫还是被网站封了，可能是什么原因？

A1: 被封锁的原因很多，代理IP只是其中一环。检查代理IP本身是否有效且匿名度足够，天启代理的自建机房纯净网络在这方面有保障。你的爬虫行为特征可能过于明显，比如请求频率太高、没有设置合理的延时、User-Agent过于单一等。建议将代理IP与随机User-Agent、请求头管理、访问间隔控制等反反爬策略结合使用。

Q2: 使用代理后，请求速度明显变慢，如何优化？

A2: 速度慢可能源于代理服务器质量或网络线路。选择像天启代理这样拥有全国200+城市节点、自建机房并保证低延迟的服务商是基础。在代码层面，可以：1) 设置合理的timeout参数，避免在坏代理上等待过久；2) 实现代理IP的健康检查机制，定期剔除响应慢的IP；3) 根据目标网站服务器位置，优先选择地理位置上相近的天启代理节点。

Q3: 如何处理代理IP的认证问题？

A3: 天启代理支持两种授权方式：终端IP授权和账号密码授权。如果是终端IP授权账号密码授权，则需要在构造代理地址时，按照http://用户名:密码@ip:port的格式填写。务必确保账号密码正确，且没有多余的空格。

Q4: 如何验证代理IP是否真正生效？

A4: 一个简单的方法是访问一些可以返回访问者IP的网站，如 httpbin.org/ip。将使用代理获取到的IP与不使用代理获取到的真实IP进行对比。也可以使用天启代理提供的API接口或后台查看IP提取和使用记录，确认代理IP是否被成功调用。

选择可靠代理服务的关键点

为爬虫项目选择代理IP服务，不能只看价格。稳定性、速度和可靠性才是保证项目长期运行的关键。天启代理作为企业级服务商，其核心优势在于掌握一手IP资源，通过自建机房和分布式集群架构，从源头上保证了IP的纯净度和高可用性。其高达99%的可用率和极低的延迟，对于需要高并发、快速响应的爬虫业务来说，能显著提升数据采集的成功率和效率。

技术支持也非常重要。在集成和使用过程中，难免会遇到技术问题。天启代理提供的一对一专业技术客服，能快速响应并解决你在接入、调试中遇到的各种难题，这比单纯提供一个API接口要省心得多。对于业务量大的企业，还可以关注服务商是否提供定制化服务，以便根据自身业务特点（如特定的IP地域分布、并发量要求）获得最适合的解决方案。