赠百科 手机版
当前位置: 首页 > 常识 >

爬虫技术是什么(网络爬虫技术详解)

随着大数据时代的来临,我们在互联网上所做的很多行为产生了大量的“用户数据”,比如微博、购买记录等。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息,并为我们所用是一个重要的问题,为了解决这些问题爬虫技术应运而生。


网络爬虫也叫做网络机器人,可以代替人们自动地将互联网中的数据信息进行采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也很高。

此时,我们可以使用网络爬虫对数据信息进行自动采集。比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

网络爬虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取互联网信息。


网络爬虫的分类及技术原理

网络爬虫按照实现的技术和结构,可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。在实际的网络爬虫中,通常是这几类爬虫的组合体。


1 通用网络爬虫

通用网络爬虫(Scalable Web Crawler)又叫作全网爬虫,爬取的目标资源在整个互联网上,由于信息量巨大,常用于大型的搜索引擎中。它主要由初始化URL集合、URL队列、页面爬行模块、页面分析模块、数据库等构成。具体步骤是首先选取部分种子URL,将这些URL放入待抓取URL队列,进行循环提取,一旦满足停止条件则不再进行网络爬虫搜索。通用网络爬虫由于抓取的信息巨大,常使用分布式网络爬虫框架进行设计实现。


2 聚焦网络爬虫

聚焦网络爬虫(Focused Crawler)也叫主题网络爬虫,是指按照预先定义好的主题,有选择地进行相关网页爬取的一种爬虫。和通用网络爬虫的区别在于,聚焦网络爬虫在实施页面抓取时会对内容进行处理筛选,将爬取的目标网页定位在与需求相关的页面中。目前爬虫应用中绝大多数是聚焦爬虫。


3 增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)在爬取网页的时候只会在需要的时候爬取新产生或发生更新的页面,对于没有发生变化的页面则不会爬取。这样能有效地减少数据下载量并及时更新已爬取过的网页,减少时间和存储空间上的浪费,但该算法的复杂度和实现难度更高。应用场景包括某电商网站会实时更新一批最近商品,书籍网站根据作者创作的进度实时更新最新的章节数据等,遇到类似的场景时,便可以采用增量式网络爬虫。

为了使爬虫获取到的数据以增量的形式稳定增长,增量爬虫的核心就是去重。Redis中的Set集合具有天然的去重属性,所以往往采用的策略是将爬取过程中产生的URL进行存储,存入到Redis中的Set中,当下次再爬取的时候,对在存储的URL中的Set中进行判断,如果URL存在则不发起请求,否则就发起请求。


4 深层网络爬虫

Web页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web)。

表层网页指的直接使用静态的超链接就可以直接访问的静态页面。

深层网页指的是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后面的,需要用户提交一些关键词才能获得的Web页面。



网络爬虫的组成

网络爬虫由控制节点爬虫节点资源库构成。


网络爬虫的控制节点和爬虫节点的结构关系


可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

控制节点,也叫作爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。

爬虫节点会按照相关的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。



爬虫基本流程


发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。

获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。

解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。

保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。


相关文章

  • picture

    腊肠和什么炒好吃又下饭(腊肠绝绝子的简单吃法)

    腊肠绝绝子的简单吃法,搭配青蒜炒一炒,解馋下饭,老少皆宜在中国的广袤土地上,腊肠作为一种传统美食,历史悠久,源远流长。它不仅是南方地区尤其是广东、四川等地的家常美味,更是春节、冬至等传统节日的必备佳肴。腊肠以其独特的风味和制作工艺,承载着家的味道和节日的喜悦。腊肠炒青蒜,这道菜品将腊肠的醇厚与青蒜的

  • picture

    什么草莓品种最好吃(十大公认最好吃草莓?)

    在浩如烟海的水果世界中,草莓凭借其鲜艳的色泽、诱人的香气和独特的口感,一直深受人们的喜爱。作为“果中皇后”,草莓不仅美味可口,还富含丰富的营养价值,成为了许多人日常水果的首选。然而,在众多草莓品种中,哪些才是真正的佼佼者呢?今天,我们就来为大家揭晓十大公认最好草莓排名榜。首先,排名第一的当属“红颜草

  • picture

    短路什么意思怎么解决(断路短路你是否熟知?)

    电池的断路与短路是完全两个故障,也是两个概念,今天我给大家详细说说断路和短路都是怎么回事儿,怎么去区分?  我们先说一下断路,断路就是断开的意思,也就是电池内部出现了断裂的地方啊,也就是我们俗称的断格。电池修复 例如电池内部的过桥格与格之间出现了断裂,即为断路,也就是断格。断格的初步表现不是完全断开

  • picture

    卫生间适合挂什么画好(卫生间装饰哪种好?)

    很多人都觉得风水问题离我们很远,其实不然,我们日常生活中就存在,知识我们忽略了它的存在,卫生间隔断,相信很多家庭都安装了,其实这样的设计一则是为了美观,还有一个也是风水巧妙化解。当然卫生间隔断只是一个方面,卫浴间挂上风水画也能有奇效!(一)卫生间挂画风水之愉悦身心的挂画在卫生间中,选择一些偏绿色系的

  • picture

    鞋为什么发霉(教你如何处理皮鞋发霉问题)

    不知道你是不是也感受到了今年梅雨季节带来的侵害,仅仅是隔了一两个月没打开的鞋柜,一打开旋即霉味扑鼻,不少鞋子纷纷中招——发霉了!夏季气候高温潮湿,最是容易引起鞋子发霉的“事故”。那么,具体是什么原因引起皮鞋发霉的呢?最常见的发霉原因包括下面三种:1.鞋子穿过后没有很好清洗、吹干,鞋内残留污渍,并且皮

热门文章

最新文章