标签

数据采集有哪些常见问题?

1.数据采集可以爬取ajax信息么?

网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器,或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。

2.数据采集怎么抓取要登陆的网站?

这些开源采集程序都支持在抓取时指定cookies,模拟登陆主要是靠cookies。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。

3.数据采集怎么抽取网页的信息?

开源采集程序一般都会集成网页抽取工具,主要支持两种规范:CSS SELECTOR和XPATH。

4.采集程序被网站封了怎么办?

采集程序被网站封了,一般使用代理IP就可以解决。比如天启HTTP代理,提供API接口和代码demo,使用起来很方便。如果使用其他代理IP,往往都需要自己将获取的代理放到一个全局数组中写一个代理随机获取(从数组中)的代码。

5.数据采集怎么保存网页的信息?

有一些采集程序,自带一个模块负责持久化。比如webmagic,有一个模块叫pipeline。通过简单地配置,可以将数据采集抽取到的信息,持久化到文件、数据库等。还有一些采集程序,并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好,就和操作数据库使用ORM好不好这个问题类似,取决于你的业务。