这是博客的第一篇Python爬虫教程,主要内容为:安装Python(anaconda,原版Python),安装爬虫要用的库基本爬虫获取库:(requests,selenium(Chrome:ChromeDriver,FireFox:GeckoDriver,PhantomJS),aiohttp)解析库:lxml,beautifulsoup4 (bs4),pyquery,以及验证码的识别库:tesserocr,数据库可以自行选择


首先是安装Python,有两个选择,第一个是anaconda,用于数据处理,人工智能等等领域,下载页面,选择适合的操作系统,系统位数(x86是32位,64位也可以使用但是性能会有所下降,而x64是专门给64位操作系统用的,32位用不了),版本可以选择比较新的(最新的可能有Bug,不推荐用最新的),点一下,下载完安装就完事了。可以跳到测试阶段。而电脑没那么大空间的或者需求比较小的推荐使用原版的python,下载链接,这个比较推荐3.7版本的python,稳定性杠杠的,然后一直安装就好了。


接下来是测试部分
首先打开cmd(win+R输入cmd,enter打开),输入python,如果显示了python的版本等等的信息和出现了>>>的符号就是可以了,输入quit()退出
显示命令不存在则是环境变量没有设置好,右键电脑,属性,高级系统设置,环境变量,双击系统变量里的path,,添加两条:安装目录,以及安装目录/Scripts,一直确认,重启下cmd就可以使用了


接下来是安装需要的包的部分
可以直接一条条执行这个:
pip install wheel
pip install requests
pip install selenium
pip install aiohttp
这里要注意一下,lxml在anaconda是已经安装了的,但是在原版中安装有点麻烦(pip 会报错),所以使用wheel下载
pip install beautifulsoup4
pip install pyquery
也要注意下,tesserocr是要先安装tesseract,可以百度安装,然后pip install tesserocr pillow就行了
这样就基本装好了,其他的系统都自带了
在后期的的文章中还会讲到api等等的爬虫调用方式和SQL等等的储方式,那些可以选择自己安装
抓包推荐Charles,可以分析web包的发送等等,安装地址
但是这个是收费软件,没钱的可以看下网上的破解版或者密钥
Appium用于移动app分析,可以直接从github上安装下来使用,这里也不多赘述了,但是也要注意这个是基于node.js的所以要提前安装好npm
爬虫框架这边也先不讲,到后期有大量的数据和速度需求的时候会和SQL等等的一起讲


结语
文章到这里就结束了,希望大家能喜欢,第二篇文章将会讲述爬虫和网络的原理

Last modification:July 6th, 2021 at 05:53 pm