赠百科 手机版
当前位置: 首页 > 常识 >

爬虫技术是什么(网络爬虫技术详解)

随着大数据时代的来临,我们在互联网上所做的很多行为产生了大量的“用户数据”,比如微博、购买记录等。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息,并为我们所用是一个重要的问题,为了解决这些问题爬虫技术应运而生。


网络爬虫也叫做网络机器人,可以代替人们自动地将互联网中的数据信息进行采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也很高。

此时,我们可以使用网络爬虫对数据信息进行自动采集。比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

网络爬虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取互联网信息。


网络爬虫的分类及技术原理

网络爬虫按照实现的技术和结构,可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。在实际的网络爬虫中,通常是这几类爬虫的组合体。


1 通用网络爬虫

通用网络爬虫(Scalable Web Crawler)又叫作全网爬虫,爬取的目标资源在整个互联网上,由于信息量巨大,常用于大型的搜索引擎中。它主要由初始化URL集合、URL队列、页面爬行模块、页面分析模块、数据库等构成。具体步骤是首先选取部分种子URL,将这些URL放入待抓取URL队列,进行循环提取,一旦满足停止条件则不再进行网络爬虫搜索。通用网络爬虫由于抓取的信息巨大,常使用分布式网络爬虫框架进行设计实现。


2 聚焦网络爬虫

聚焦网络爬虫(Focused Crawler)也叫主题网络爬虫,是指按照预先定义好的主题,有选择地进行相关网页爬取的一种爬虫。和通用网络爬虫的区别在于,聚焦网络爬虫在实施页面抓取时会对内容进行处理筛选,将爬取的目标网页定位在与需求相关的页面中。目前爬虫应用中绝大多数是聚焦爬虫。


3 增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)在爬取网页的时候只会在需要的时候爬取新产生或发生更新的页面,对于没有发生变化的页面则不会爬取。这样能有效地减少数据下载量并及时更新已爬取过的网页,减少时间和存储空间上的浪费,但该算法的复杂度和实现难度更高。应用场景包括某电商网站会实时更新一批最近商品,书籍网站根据作者创作的进度实时更新最新的章节数据等,遇到类似的场景时,便可以采用增量式网络爬虫。

为了使爬虫获取到的数据以增量的形式稳定增长,增量爬虫的核心就是去重。Redis中的Set集合具有天然的去重属性,所以往往采用的策略是将爬取过程中产生的URL进行存储,存入到Redis中的Set中,当下次再爬取的时候,对在存储的URL中的Set中进行判断,如果URL存在则不发起请求,否则就发起请求。


4 深层网络爬虫

Web页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web)。

表层网页指的直接使用静态的超链接就可以直接访问的静态页面。

深层网页指的是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后面的,需要用户提交一些关键词才能获得的Web页面。



网络爬虫的组成

网络爬虫由控制节点爬虫节点资源库构成。


网络爬虫的控制节点和爬虫节点的结构关系


可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

控制节点,也叫作爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。

爬虫节点会按照相关的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。



爬虫基本流程


发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。

获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。

解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。

保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。


相关文章

  • picture

    腼腆的男生怎么追女生(内向的男生追女孩老失败,学会这样做,轻轻松松追到女神)

    首先,我也是一个内向的人,到现在也没改变。我并不认为内向这种性格会给你在追求喜欢的女生过程中会带来多大的阻碍,因为我就是在这种状态下追到了我喜欢的女生,下面是我的一些小建议。1. 摆正心态,不怕失败内向的男生在追爱的过程中总是考虑太多,她是不是喜欢我呢?我去追她结果会很难堪吧?失败了以后要怎么面对她

  • picture

    让男生毫无抵抗力撒娇的话(让老公无法抵抗的,撒娇攻略)

    撒娇是女人天生的优势,这是一种展现女性魅力的方式,也是一种让男人为自己心动的方式。撒娇也是一门艺术,需要技巧和方法才能让男人无法抵抗。那么,让男朋友或老公无法抵抗的最强撒娇攻略是什么呢?下面就给大家分享一些技巧。首先,要学会使用可爱的表情和语言。女人的可爱是男人无法抵抗的,使用一些可爱的表情和语言,

  • picture

    会让男人厌烦的吵架方式(发生矛盾这几种行为最令人讨厌)

    男人与女人结婚以后,其实不管他们两个人的感情有多好,他们终究会有一些不可避免的摩擦,因为两个人的生活习惯多多少少是有一些不一样的,而有了摩擦,自然就会吵架。可见吵架是婚后生活,特别是新婚时候特别常见的一件事。吵架,有时并不是一件坏事,相爱的人,他们吵架时,总会寻求解决的办法,而不是不断的刺激对方,这

  • picture

    好的爱情怎么做才会拥有(获得好的爱情的方法)

    爱情最难的不是爱上一个人,爱是天生的,最难是你能珍惜那个爱你的人,守护自己的爱。守护爱情,需要技术,学问,需要不断持续学习,只有掌握了它们,才能守护爱情。1、多赚钱。钱是守护之王,可柔顺一切人际关系。爱你的人,可能不会嫌弃你穷,这不并不意味着你可以穷,你必须阔起来,穷是烦扰之源,能毁掉一晚好梦。2、

  • picture

    丈夫沉迷于赌博,妻子该怎么办?(男人烂赌,女人应该怎么办?)

    男人爱赌博,还赌的比较大,不给家用,或者给很少,女人怎么办?刚开始,女人会好言好语劝,男人改不了,就吵架,吵架无效,就闹离婚,男人不同意离婚,女人要死要活,男人看也没死,就死猪不怕开水烫,能拖就拖!女人又要工作,又要养家,累了没人心疼,没人帮,就会心寒,时间久了,最后还是受不了一走了之!婚姻,从来就

热门文章

最新文章