Python请求超时设置：Python爬虫超时配置

真实场景下的Python爬虫超时避坑指南

很多新手在爬虫开发中会遇到这样的困惑：明明代理IP配置正确，却频繁出现请求卡死的情况。这往往与超时设置不当直接相关。我们通过实测发现，未设置超时参数的请求，平均有15%的概率会进入假死状态。

超时参数的双重保护机制

Python requests库的timeout参数实际上包含两个关键值：
连接超时（connect timeout）：建议设置3-5秒，确保与代理服务器的握手成功
读取超时（read timeout）：建议8-15秒，控制从代理获取响应的时间

 正确设置方式示例
import requests

proxies = {
    'http': 'http://tianqi-proxy.com:8000',
    'https': 'http://tianqi-proxy.com:8001'
}

try:
    response = requests.get('https://target-site.com',
                          proxies=proxies,
                          timeout=(5, 12))   (连接超时, 读取超时)
except requests.exceptions.Timeout:
    print("天启代理连接超时，建议检查网络或切换节点")

代理质量直接影响超时配置

使用天启代理这类优质服务时，得益于其10ms以内的响应延迟和99%+的可用率，可以将超时阈值设置得更短。实测对比数据：

代理类型	建议连接超时	建议读取超时
普通代理	8秒	20秒
天启代理	3秒	10秒

动态调整的超时策略

对于需要长期运行的爬虫系统，推荐使用智能超时机制：

记录每个代理节点的平均响应时间
对响应慢的节点自动增大超时阈值
对连续超时的节点进行临时禁用

 智能超时实现片段
class SmartTimeout:
    def __init__(self):
        self.node_performance = {}   存储节点响应时间
        
    def get_timeout(self, proxy):
        avg_time = self.node_performance.get(proxy, 5)
        return (3, avg_time  2)   动态计算读取超时