帮助中心 > 行业资讯 > 爬虫有哪些常见问题?
发布时间: 2021-10-29

1.爬虫可以爬取ajax信息么?

网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(,或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。

2.爬虫怎么爬取要登陆的网站?

这些开源爬虫都支持在爬取时指定cookies,模拟登陆主要是靠cookies。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。

3.爬虫怎么抽取网页的信息?

开源爬虫一般都会集成网页抽取工具,主要支持两种规范:CSS SELECTOR和XPATH。

4.爬虫被网站封了怎么办?

爬虫被网站封了,一般使用代理IP就可以解决。比如天启HTTP代理,提供API接口和代码demo,使用起来很方便。如果使用其他代理IP,往往都需要自己将获取的代理放到一个全局数组中写一个代理随机获取(从数组中)的代码。

5.爬虫怎么保存网页的信息?

有一些爬虫,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将爬虫抽取到的信息,持久化到文件、数据库等。还有一些爬虫,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。

5000IP最高赠送

在线咨询

专属客户经理

电话:13260755168

微信二维码

商务合作

关注微信公众号

各种优惠活动,最先获取

公众号

置顶