用Python写网络爬虫,Python写网络爬虫


填完笨方法学Python的坑,继续填Python爬虫的坑。


识别网站所用的技术

安装检查网站构建的技术类型——builtwith模块


试了一下

第一次是看百度首页没出来啥东西,然后试了书上的网址发生错误。最后看了一下豆瓣的.


查了一下

piwik是PHP和MySQL的开放源代码的Web统计软件,它卡伊给出一些关于网站的实用统计报告,比如:网页浏览人数、访问最多的页面、搜索引擎关键词等等。

使用的jQuery是JavaScript框架


寻找网站所有者

安装所需的封装库 python-whois


import whois
print(whois.whois('baidu.com'))

查了一下百度



中间太长,省略一堆。具体意思一知半解,可以看到域名归属Beijing Baidu Netcom Science Technology Co., Ltd(北京百度网通科技),国家是CN(中国)


编写第一个网络爬虫

其实开始计划学习笨方法之前,已经跑了几个爬虫的例子,使用的是requests库,感受了一下,感觉很有趣,所以入坑了。

3种爬取网站的常见方法:

爬取网站地图

遍历每个网页的数据库ID

跟踪网页链接


注意爬虫陷阱:一些网站会动态生成页面,这样就会出现无限多的网页,访问的时候页面会无止境的链接下去。

解决方法:记录到达当前网页经过了多少链接(也就是深度),当达到最大的深度的时候,就不再向队列添加改网页中的链接。



发现一个问题:这本书上的链接我都打不开。后续看看是不是要换一本书继续学习。


相关内容

    暂无相关文章