用Python写网络爬虫，Python写网络爬虫

文章由LinuxBoy分享于2019-06-25 11:06:57热评（606）

填完笨方法学Python的坑，继续填Python爬虫的坑。

识别网站所用的技术

安装检查网站构建的技术类型——builtwith模块

试了一下

第一次是看百度首页没出来啥东西，然后试了书上的网址发生错误。最后看了一下豆瓣的.

查了一下

piwik是PHP和MySQL的开放源代码的Web统计软件，它卡伊给出一些关于网站的实用统计报告，比如：网页浏览人数、访问最多的页面、搜索引擎关键词等等。

使用的jQuery是JavaScript框架

寻找网站所有者

安装所需的封装库 python-whois

import whois
print(whois.whois('baidu.com'))

查了一下百度

中间太长，省略一堆。具体意思一知半解，可以看到域名归属Beijing Baidu Netcom Science Technology Co., Ltd（北京百度网通科技），国家是CN（中国）

编写第一个网络爬虫

其实开始计划学习笨方法之前，已经跑了几个爬虫的例子，使用的是requests库，感受了一下，感觉很有趣，所以入坑了。

3种爬取网站的常见方法：

爬取网站地图
遍历每个网页的数据库ID
跟踪网页链接

注意爬虫陷阱：一些网站会动态生成页面，这样就会出现无限多的网页，访问的时候页面会无止境的链接下去。

解决方法：记录到达当前网页经过了多少链接（也就是深度），当达到最大的深度的时候，就不再向队列添加改网页中的链接。

发现一个问题：这本书上的链接我都打不开。后续看看是不是要换一本书继续学习。

推荐文章：