HTTP代理服务器的架构-天启HTTP

HTTP架构师一般都会使用多种复杂的机制来将多个模块组合建成一个HTTP服务。现在的网络爬虫中，已经形成了4种基本的模式。如果已经编写了用于生成动态内容的网络爬虫Python代码，并且已经选择了某个支持WSGI的API或框架，应该如何将HTTP服务部署到线上呢？介绍下HTTP代理服务器的四种架构。

代理IP
第一，运行一个使用网络爬虫Python编写的服务器，服务器的代码中可以直接调用WSGI接口。现在流行的是Green Unicorn（Gunicorn）服务器，不过也有其他已经可以用于生产环境的纯Python服务器。

第二，配置mod_wsgi并运行Apache，在一个独立的WSFIDaemonProcess中运行Python代码，由mod_wsgi启动守护进程。

第三在后端运行一个类似于Gunicorn的Python HTTP服务器（或者支持所选异步框架的任何服务器），然后在前端运行一个既能返回静态文件，又能对Python编写的动态资源服务进行反向代理的Web服务器。

第四步在前端运行一个纯粹的反向代理（如Varnish），在该反向代理后端运行Apache或者nginx，在后端运行Python编写的HTTP服务器。这是一个三层的架构。这些反向代理可以分布在不同的地理位置，这样子就能够将离客户端近的反向代理上的缓存资源返回给发送请求的客户端。

长期以来，对这4个架构的选择主要基于CPython的3个运行时的特性，即解释器占用内存大、解释器运行慢、全局解释器（GIL，Global Interpreter Lock）禁止多个线程同时运行Python字节码。但同时带来了内存中只能载入一定数量的Python实例。

上一篇: HTTP代理IP如何运用

下一篇: 代理IP按用途的分类

猜你还想了解：

解决IP限制爬虫ip代理优质代理IP 国内代理IP 代理IP平台代理IP验证代理IP怎么用 ip代理隧道代理数据采集代理服务器动态IP socks5代理秒杀换IP Python爬虫游戏工作室换IP 补量换IP工具独享IP 高匿IP IP代理API 网络投票效果补量抢购秒杀品牌监控价格监控 http代理ip 网页爬虫 scrapy Java爬虫爬虫代理网络爬虫国内ip代理长效代理IP 短效代理IP 静态IP 游戏加速换IP地址换IP 改IP地址 ip代理有效连通率 ip代理池免费代理IP 手机换IP 代理服务器ip 代理ip软件代理ip地址 IP代理软件 ip代理服务器免费ip代理国内代理ip ip在线代理国内ip代理动态ip代理反向代理正向代理 http代理全局代理网络代理免费代理ip 在线代理ip ip代理工具游戏代理ip 爬虫代理池 scrapy代理池代理池搭建网页代理服务器国内代理服务器免费网页代理