如何入门 Python 爬虫

作者&投稿：韩炭（若有异议请与网页底部的电邮联系）

如何入门 Python 爬虫~

# -*- coding: utf-8 -*-import reimport urllib2 from collections import deque queue = deque()visited = set()url = 'http://pic.yesky.com/' # 入口页面, 可以换成别的req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'}req_timeout = 20 queue.append(url)cnt = 0while queue: url = queue.popleft() # 队首元素出队 visited |= {url} # 标记为已访问 print(u'已经抓取: ' + str(cnt) + u' 正在抓取 ' + x)

我也正在学，推荐参考书：《Python网络数据采集》

在这之前应该有一定的Python基础，了解一下网络数据格式
本书内容提要本书采用简洁强大的 Python 语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用 Python 从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。本书适合需要采集 Web 数据的相关软件开发人员和研究人员阅读。

在空目录下按住Shift键右击，选择“在此处打开命令窗口”，输入一下命令：
scrapy startproject tutorial

其中，tutorial为项目名称。
可以看到将会创建一个tutorial文件夹，目录结构如下：
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...

下面来简单介绍一下各个文件的作用：
scrapy.cfg：项目的配置文件
tutorial/：项目的Python模块，将会从这里引用代码
tutorial/items.py：项目的items文件
tutorial/pipelines.py：项目的pipelines文件
tutorial/settings.py：项目的设置文件
tutorial/spiders/：存储爬虫的目录

在空目录下按住Shift键右击，选择“在此处打开命令窗口”，输入一下命令：
scrapy startproject tutorial

其中，tutorial为项目名称。
可以看到将会创建一个tutorial文件夹，目录结构如下：
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...

下面来简单介绍一下各个文件的作用：
scrapy.cfg：项目的配置文件
tutorial/：项目的Python模块，将会从这里引用代码
tutorial/items.py：项目的items文件
tutorial/pipelines.py：项目的pipelines文件
tutorial/settings.py：项目的设置文件
tutorial/spiders/：存储爬虫的目录

一、首先你要明白爬虫怎样工作。
想象你是一只蜘蛛，现在你被放到了互联“网”上。那么，你需要把所有的网页都看一遍。怎么办呢？没问题呀，你就随便从某个地方开始，比如说人民日报的首页，这个叫initial pages，用$表示吧。
在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。
突然你发现，在国内新闻这个页面上，有一个链接链回“首页”。作为一只聪明的蜘蛛，你肯定知道你不用爬回去的吧，因为你已经看过了啊。所以，你需要用你的脑子，存下你已经看过的页面地址。这样，每次看到一个可能需要爬的新链接，你就先查查你脑子里是不是已经去过这个页面地址。如果去过，那就别去了。
二、效率
如果你直接加工一下上面的代码直接运行的话，你需要一整年才能爬下整个豆瓣的内容。更别说Google这样的搜索引擎需要爬下全网的内容了。
问题出在哪呢？需要爬的网页实在太多太多了，而上面的代码太慢太慢了。设想全网有N个网站，那么分析一下判重的复杂度就是N*log(N)，因为所有网页要遍历一次，而每次判重用set的话需要log(N)的复杂度。OK，OK，我知道python的set实现是hash——不过这样还是太慢了，至少内存使用效率不高。
通常的判重做法是怎样呢？Bloom Filter. 简单讲它仍然是一种hash的方法，但是它的特点是，它可以使用固定的内存（不随url的数量而增长）以O(1)的效率判定url是否已经在set中。可惜天下没有白吃的午餐，它的唯一问题在于，如果这个url不在set中，BF可以100%确定这个url没有看过。但是如果这个url在set中，它会告诉你：这个url应该已经出现过，不过我有2%的不确定性。注意这里的不确定性在你分配的内存足够大的时候，可以变得很小很少。
注意到这个特点，url如果被看过，那么可能以小概率重复看一看（没关系，多看看不会累死）。但是如果没被看过，一定会被看一下（这个很重要，不然我们就要漏掉一些网页了！）。 [IMPORTANT: 此段有问题，请暂时略过]
好，现在已经接近处理判重最快的方法了。另外一个瓶颈——你只有一台机器。不管你的带宽有多大，只要你的机器下载网页的速度是瓶颈的话，那么你只有加快这个速度。用一台机子不够的话——用很多台吧！当然，我们假设每台机子都已经进了最大的效率——使用多线程（python的话，多进程吧）。
三、集群化抓取
爬取豆瓣的时候，我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了...
那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？
我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么回顾上面代码中的url_queue，如果我们能把这个queue放到这台master机器上，所有的slave都可以通过网络跟master联通，每当一个slave完成下载一个网页，就向master请求一个新的网页来抓取。而每次slave新抓到一个网页，就把这个网页上所有的链接送到master的queue里去。同样，bloom filter也放到master上，但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里，而被访问过的url放到运行在master上的Redis里，这样保证所有操作都是O(1)。
四、展望及后处理
虽然上面用很多“简单”，但是真正要实现一个商业规模可用的爬虫并不是一件容易的事。上面的代码用来爬一个整体的网站几乎没有太大的问题。
但是如果附加上你需要这些后续处理，比如
有效地存储（数据库应该怎样安排）
有效地判重（这里指网页判重，咱可不想把人民日报和抄袭它的大民日报都爬一遍）
有效地信息抽取（比如怎么样抽取出网页上所有的地址抽取出来，“朝阳区奋进路中华道”），搜索引擎通常不需要存储所有的信息，比如图片我存来干嘛...
及时更新（预测这个网页多久会更新一次）
如你所想，这里每一个点都可以供很多研究者十数年的研究。虽然如此，“路漫漫其修远兮,吾将上下而求索”。所以，不要问怎么入门，直接上路就好了。

陵水黎族自治县19354475942： 如何入门 Python 爬虫 - ？
仝宽金喹： 你需要学习: 1.基本的爬虫工作原理 2.基本的http抓取工具,scrapy 3.Bloom Filter: Bloom Filters by Example 4.如果需要大规模网页抓取,你需要学习分布式爬虫的概念.其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好.最简单的实现是python-rq. 5.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub 6.后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)

陵水黎族自治县19354475942： 如何学习Python爬虫 - ？
仝宽金喹： 其实网络爬虫就是模拟浏览器获取web页面的内容的过程,然后解析页面获取内容的过程.首先要熟悉web页面的结构,就是要有前端的基础,不一定要精通,但是一定要了解.然后熟悉python基础语法,相关库函数(比如beautifulSoup),以及相关框架比如pyspider等.建议刚开始不要使用框架,自己从零开始写,这样你能理解爬虫整个过程.推荐书籍:python网络数据采集这本书,比较基础.

陵水黎族自治县19354475942： 零基础入门Python爬虫不知道怎么学 - ？
仝宽金喹： 爬虫需要掌握Python基础,re正则模块,Beatifulsoup,pyquery,xpath,selenium,scrapy等一些知识点,能爬取任何网站,包括某宝,某东.零基础带你,给点学费就行了、

陵水黎族自治县19354475942： 如何自学Python爬虫技术,花式赚钱 - ？
仝宽金喹： Python语言这两年是越来越火了,它渐渐崛起也是有缘由的. 比如市场需求、入门简单易学、支持多种语言……当然这些都是很官方的. 说白了,就是写个web服务,可以用python; 写个服务器脚本,可以用python; 写个桌面客户端,可以用...

陵水黎族自治县19354475942： 毫无基础的人如何入门 Python ?？
仝宽金喹： 1. Python是一门非常适合入门的编程的语言,因为它是高度封装的,不需要对于底层特别了解,也能够很好学习使用,python语法非常简单,代码可读性高,对于零基础的人来说更容易接受和使用.2. Python对于代码的规范性要求非常严格,特...

陵水黎族自治县19354475942： 如何从零基础开始写一个关于搜索知乎答案的python爬虫 - ？
仝宽金喹： 首先来说爬虫.关于爬虫一个不太严谨的理解就是,你可以给爬虫程序设定一个初始的目标页面,然后程序返回目标页面的HTML文档后,从中提取页面中的超链接,然后继续爬到下一个页面中去.从这些页面的HTML文档中可以通过对标签的...

陵水黎族自治县19354475942： Python中怎么用爬虫爬 - ？
仝宽金喹： Python爬虫可以爬取的东西有很多,Python爬虫怎么学?简单的分析下: 如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工...

陵水黎族自治县19354475942： 想做爬虫开发,需要掌握什么技术呀?？
仝宽金喹： 随着大数据时代的到来,人们对数据资源的需求越来越多,而爬虫技术就是一种很好的自动采集数据的手段.目前,爬虫技术已经在各行各业都得到了广泛的应用,因此爬虫技术不仅仅是编程开发者的必备的技能,它还是许多行业职场人的加分...

陵水黎族自治县19354475942： 作为一个小白,Python应该怎样从零到入门? - ？
仝宽金喹： 分享Python学习路线. 第一阶段Python基础与Linux数据库.这是Python的入门阶段,也是帮助零基础学员打好基础的重要阶段.你需要掌握Python基本语法规则及变量、逻辑控制、内置数据结构、文件操作、高级函数、模块、常用标准库模...

陵水黎族自治县19354475942： 学完Python都可以做什么 - ？
仝宽金喹： 从入门级选手到专业级选手都在做的——爬虫用 Python 写爬虫的教程网上一抓一大把,据我所知很多初学 Python 的人都是使用它编写爬虫程序.小到抓取一个小黄图网站,大到一个互联网公司的商业应用.通过 Python 入门爬虫比较简单易学...

你可能想看的相关专题

星空见康网

如何入门 Python 爬虫

你可能想看的相关专题