赠百科 手机版
当前位置: 首页 > 常识 >

爬虫技术是什么(网络爬虫技术详解)

随着大数据时代的来临,我们在互联网上所做的很多行为产生了大量的“用户数据”,比如微博、购买记录等。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息,并为我们所用是一个重要的问题,为了解决这些问题爬虫技术应运而生。


网络爬虫也叫做网络机器人,可以代替人们自动地将互联网中的数据信息进行采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也很高。

此时,我们可以使用网络爬虫对数据信息进行自动采集。比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

网络爬虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取互联网信息。


网络爬虫的分类及技术原理

网络爬虫按照实现的技术和结构,可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。在实际的网络爬虫中,通常是这几类爬虫的组合体。


1 通用网络爬虫

通用网络爬虫(Scalable Web Crawler)又叫作全网爬虫,爬取的目标资源在整个互联网上,由于信息量巨大,常用于大型的搜索引擎中。它主要由初始化URL集合、URL队列、页面爬行模块、页面分析模块、数据库等构成。具体步骤是首先选取部分种子URL,将这些URL放入待抓取URL队列,进行循环提取,一旦满足停止条件则不再进行网络爬虫搜索。通用网络爬虫由于抓取的信息巨大,常使用分布式网络爬虫框架进行设计实现。


2 聚焦网络爬虫

聚焦网络爬虫(Focused Crawler)也叫主题网络爬虫,是指按照预先定义好的主题,有选择地进行相关网页爬取的一种爬虫。和通用网络爬虫的区别在于,聚焦网络爬虫在实施页面抓取时会对内容进行处理筛选,将爬取的目标网页定位在与需求相关的页面中。目前爬虫应用中绝大多数是聚焦爬虫。


3 增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)在爬取网页的时候只会在需要的时候爬取新产生或发生更新的页面,对于没有发生变化的页面则不会爬取。这样能有效地减少数据下载量并及时更新已爬取过的网页,减少时间和存储空间上的浪费,但该算法的复杂度和实现难度更高。应用场景包括某电商网站会实时更新一批最近商品,书籍网站根据作者创作的进度实时更新最新的章节数据等,遇到类似的场景时,便可以采用增量式网络爬虫。

为了使爬虫获取到的数据以增量的形式稳定增长,增量爬虫的核心就是去重。Redis中的Set集合具有天然的去重属性,所以往往采用的策略是将爬取过程中产生的URL进行存储,存入到Redis中的Set中,当下次再爬取的时候,对在存储的URL中的Set中进行判断,如果URL存在则不发起请求,否则就发起请求。


4 深层网络爬虫

Web页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web)。

表层网页指的直接使用静态的超链接就可以直接访问的静态页面。

深层网页指的是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后面的,需要用户提交一些关键词才能获得的Web页面。



网络爬虫的组成

网络爬虫由控制节点爬虫节点资源库构成。


网络爬虫的控制节点和爬虫节点的结构关系


可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

控制节点,也叫作爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。

爬虫节点会按照相关的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。



爬虫基本流程


发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。

获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。

解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。

保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。


相关文章

  • picture

    刷信用卡有什么好处吗(信用卡的十大好处和六大坏处)

    信用卡的十大好处1、少欠人情遇到急需现金以解燃眉之急时,如果向亲朋好友难免不好意思开口,这时就可以透支信用卡了,虽然万分之五的利息像高利贷,但比起欠人家人情,孰重孰轻自己衡量了。2、相对安全消费都尽量刷卡,这样就可以少带现金在身上了——就算被盗或丢失了,损失也可以减小。现金丢了,找回来的可能性微乎其

  • picture

    股票配资是什么意思怎么运营的(股票配资交易这些风险你一定要了解。)

    股票配资交易是指通过融资等手段,增加投资者购买股票的资金规模以获取更高的回报。然而,这种交易并非没有风险。本文将探讨股票配资交易的风险及预防方法。一、股票配资交易是什么?股票配资交易是一种金融服务,由于投资者希望获得更高的回报,一般需要用预付款或抵押品作为贷款抵押物。与普通股票交易不同的是,购买的证

  • picture

    房子为什么东户好(买房东户好还是西户好?)

    大家一说到买房,是既高兴又头疼,高兴的是能买到房子,就有了自己温暖的小窝,当然很高兴了,头疼的是到底是买东户好还是西户好呢?有人就说了,东户、西户随便买那个都好,可是买房子东户和西户还是有点差别的。优点:第一、当然说到买房,大家都会第一时间选择买东户,据说寓意着紫气东来,这让买房人把楼盘东户早早抢购

  • picture

    围墙为什么要做构造柱(构造柱的设置原则,看完就懂了)

    构造柱,是在砌体房屋墙体的规定部位,按构造配筋,并按先砌墙后浇灌混凝土柱的施工顺序制成的混凝土柱,通常称为混凝土构造柱,简称构造柱(设计图纸中用符号GZ表示)。01构造柱的设置1应根据砌体结构体系、砌体类型、结构或构件的受力或稳定要求,以及其他功能或构造要求,在墙体中的规定部位设置现浇混凝土构造柱。

  • picture

    墩布为什么有腥味(卫生间有异味原来是“拖把”臭了!)

    平时在家里面生活都希望家里是清清爽爽的,家里最容易产生味道的地方就是卫生间。有的时候卫生间就会散发出来很臭的味道,因为有很多东西都可以导致卫生间产生异味。比如用抹布拖布都可能散发出来很臭的味道,有一个东西就可以导致卫生间变得很臭。大家是否注意过家里的拖把一旦用的时间长了就会散发出来很臭的味道?现在人

热门文章

最新文章