爬虫技术是什么

作者&投稿:第视 (若有异议请与网页底部的电邮联系)
~ 导读:人们正在以前所未有的速度转向互联网,我们在互联网上所做的很多行为产生了大量的“用户数据”,比如微博、购买记录等。
互联网成了海量信息的载体;互联网目前是分析市场趋势、监视竞争对手或者获取销售线索的最佳场所,数据采集以及分析能力已成为驱动业务决策的关键技能。
如何有效地提取并利用这些信息成了一个巨大的挑战,而网络爬虫是一种很好的自动采集数据的通用手段。本文将会对爬虫的类型、爬虫的抓取策略以及深入学习爬虫所需的网络基础等相关知识进行介绍。
作者:赵国生 王健
来源:华章科技
01 爬虫是什么
网络爬虫(又被称为网页蜘蛛、网络机器人,在FOAF社区中,更经常地称为网页追逐者)是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。
另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
网络爬虫通过爬取互联网上网站服务器的内容来工作。它是用计算机语言编写的程序或脚本,用于自动从Internet上获取信息或数据,扫描并抓取每个所需页面上的某些信息,直到处理完所有能正常打开的页面。
作为搜索引擎的重要组成部分,爬虫首要的功能就是爬取网页数据(如图2-1所示),目前市面流行的采集器软件都是运用网络爬虫的原理或功能。
▲图2-1 网络爬虫象形图
02 爬虫的意义
现如今大数据时代已经到来,网络爬虫技术成为这个时代不可或缺的一部分,企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等,而这一切的首要条件就是数据的采集。
网络爬虫的价值其实就是数据的价值
,在互联网社会中,数据是无价之宝,一切皆为数据,谁拥有了大量有用的数据,谁就拥有了决策的主动权。网络爬虫的应用领域很多,如搜索引擎、数据采集、广告过滤、大数据分析等。
1)抓取各大电商网站的商品销量信息及用户评价来进行分析,如图2-2所示。
▲图2-2 电商网站的商品销售信息
2)分析大众点评、美团网等餐饮类网站的用户消费、评价和发展趋势,如图2-3所示。
▲图2-3 餐饮类网站的用户消费信息
3)分析各个城市中学区房的比例,以及学区房比普通二手房价格高出多少,如图2-4所示。
▲图2-4 学区房的比例与价格对比
以上数据是通过前嗅ForeSpider数据采集软件爬下来的,有兴趣的读者可以尝试自己爬一些数据。
03 爬虫的原理
我们通常会将网络爬虫的组成模块分为初链接库、网络抓取模块、网页处理模块、网页分析模块、DNS模块、待抓取链接队列、网页库等,网络爬虫的各系模块可形成一个循坏体系,从而不断地进行分析和抓取。
爬虫的工作原理可以很简单地解释为先找到目标信息网,然后页面抓取模块,接着页面分析模块,最后数据存储模块。
其具体详情如图2-5所示。
▲图2-5 爬虫原理图
爬虫工作基本流程:
首先在互联网中选出一部分网页,以这些网页的链接地址作为种子URL;将这些种子URL放入待抓取的URL队列中,爬虫从待抓取的URL队列依次读取; 将URL通过DNS解析; 把链接地址转换为网站服务器对应的IP地址; 网页下载器通过网站服务器对网页进行下载; 下载的网页为网页文档形式; 对网页文档中的URL进行抽取; 过滤掉已经抓取的URL; 对未进行抓取的URL继续循环抓取,直至待抓取URL队列为空。
04 爬虫技术的类型
聚焦网络爬虫
是“面向特定主题需求”的一种爬虫程序,而
通用网络爬虫
则是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
增量抓取
意即针对某个站点的数据进行抓取,当网站的新增数据或者该站点的数据发生变化后,自动地抓取它新增的或者变化后的数据。
Web页面按存在方式可以分为表层网页(surface Web)和深层网页(deep Web,也称invisible Web pages或hidden Web)。
表层网页
是指传统搜索引擎可以索引的页面,即以超链接可以到达的静态网页为主来构成的Web页面。
深层网页
是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
关于作者:
赵国生,哈尔滨师范大学教授,工学博士,硕士生导师,黑龙江省网络安全技术领域特殊人才。主要从事可信网络、入侵容忍、认知计算、物联网安全等方向的教学与科研工作。
本文摘编自《Python网络爬虫技术与实战》,经出版方授权发布。


什么是以虫治虫?
以虫治虫是一种利用天敌昆虫防治害虫的生物防治方法。这种方法基于生态系统中生物之间的相互关系,利用一种昆虫去控制另一种害虫的数量。与传统的化学防治方法相比,以虫治虫具有环保、持久和成本效益高的优点。以虫治虫的实施通常涉及引入或培养天敌昆虫,这些昆虫能够有效地捕食或寄生在目标害虫上。例如,...

爬虫技术是做什么的
爬虫技术是做网络数据采集的。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫技术最为常见的应用就是获取网站上的各种信息,例如新闻、价...

昆虫学技术昆虫学
昆虫学技术,即Technical entomology 或者说是 entomological technology,专注于研究昆虫学领域中所应用的各种技术手段。这项科学涵盖了一系列关键环节,如昆虫标本的采集、精细的制作与妥善管理,昆虫的饲养、全面的调查、精确的摄影和绘图工作。此外,它还涵盖了昆虫学专用仪器的操作、维护,以及对昆虫学文献...

如何推广以虫治虫技术
以虫治虫技术的作用 以虫治虫是生物防治技术的一种,利用害虫的捕食性天敌和寄生性天敌防治害虫,作为一种防止农作物免受害虫侵蚀的新方法,近年来越来越受到世界各国的重视,天敌昆虫按取食的方式可以分为两大类:捕食性天敌和寄生性天敌,捕食性天敌种类很多,其中效果较好,常利用的有瓢虫、草蛉、食...

什么是爬虫技术
1、爬虫技术即网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。2、网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(...

黏虫技术的介绍
黏虫技术是一种计算机间谍木马编程理论技巧。最大特点就是在攻击对象的敏感输入框(例如:账户、密码、转账等)前面再加一个文本输入框,用户肉眼一般难以分辨,这样的结果就是用户将敏感信息输入木马程序中,最终导致用户信息或者财产受到侵犯。

车辆捉虫是什么意思呀?
车辆捉虫是一项常见的技术操作,其主要目的在于检测和排除车辆系统中的故障,保证汽车运行的正常性和安全性。捉虫的过程需要通过仪器设备和专用工具进行分析和定位,并根据问题的性质和严重程度采取相应的修复措施。因此,车辆捉虫技术也是现代汽车行业必备技能之一。车辆捉虫需要高效的技术支持,准确地定位和解决...

杀虫灯灯光诱虫技术
不同种类的害虫对不同波段的光敏感,如绿光对金黾子,黄光对蚜虫。宽谱诱虫光源覆盖长波紫外光和可见光,诱杀害虫种类广泛,如鳞翅目、鞘翅目、双翅目等。诱虫的有效范围通常在80至100米内,高度和功率会影响其覆盖范围,而节能灯则可提供高效的诱虫效果。灯光诱虫技术的发展源远流长,从60年代的...

红虫养殖技术
红虫养殖技术如下:1、红虫采集 红虫喜欢生活在水流缓慢的肥水中,水深一般在0.5米左右。每年的春末秋初,是红虫大量繁殖季节,红虫浮游于水面,常使水面呈棕红色,人们很容易发现。在我国南方地区常年可以采到红虫,春秋两季更易采得。采集前准备好采集网,在网口蒙上一层塑料绿纱,绿纱的网眼刚好使...

虫洞技术指的是什么
虫洞技术的基石是引力,正是靠对强大的引力精确操控才能将空间“穿孔”,从而实现超距离跃迁。说到引力,这里不得不说一下,爱因斯坦引力场方程,简称爱因斯坦场方程。场方程公式如下:Gμv=Rμv-1\/2 gμvR=8πg\/C4Tμv。下面简单分析一下方程公式。方程左边的Gμv是爱因斯坦的张量,是描述时空曲率...

凤县18566772662: 什么是网络爬虫技术 -
甘黄三黄: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成

凤县18566772662: 谁能解释下什么是网络爬虫呢?
甘黄三黄: 网路爬虫是搜索引擎的核心,他们算法和结构上的细节被当作商业机密

凤县18566772662: 请问什么是网络爬虫啊?是干什么的呢? -
甘黄三黄: 网络爬虫(Web crawler)也叫网络蜘蛛(Web spider)、蚂蚁(ant)、自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人.用途:它们...

凤县18566772662: 什么是网络爬虫?能不能给具体介绍一下 -
甘黄三黄: 1 爬虫技术研究综述引言إ 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战.搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检...

凤县18566772662: 网络爬虫是什么意思 -
甘黄三黄:[答案] 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.

凤县18566772662: 什么是网络爬虫以及怎么做它? -
甘黄三黄: 网络爬虫:是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫.做法:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程...

凤县18566772662: 网络爬虫技术的原理是什么?
甘黄三黄: 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种

凤县18566772662: python为什么叫爬虫?
甘黄三黄: 爬虫通常指的是网络爬虫,就是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.因为python的脚本特性,python易于配置,对字符的处理也非常灵活,加上...

凤县18566772662: 什么是网络爬虫,简单点说,网上的看不懂 -
甘黄三黄: 网络爬虫,你可以把互联网理解为一张由代码编制成大的网,网上有很多爬虫,在上面行走,但每个爬虫都有个家,每天外出,但时间就会回家,等于把搜集到的数据带回数据库

凤县18566772662: 什么是爬虫?什么是爬网?有什么区别? -
甘黄三黄: 多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项. 说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多.说离线,其实还是要跟网络联结,否则怎么抓东西下来...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网