0%

python爬虫一

Python 爬虫入门

关于python爬虫的基本认识

  • 爬虫,对于大多数的人来说并不是很陌生,因为它与我们的网络息息相关python爬虫,顾名思义是爬取信息的。大数据时代,信息的获取是非常关键的,它甚至能决定一个公司大发展的方向与未来,互联网就好像一张大网,人们想要获取信息就要从这张大网里爬取,这种手段也可以称为搜索引擎,百度搜狗等属于广义爬虫,姑且这么叫吧,广义爬虫可以在各大网站的允许范围内进行限制性的信息获取,但是这种广义爬虫远远不能满足信息的获取要求,并不能按照人们的意愿来搜索,于是自定义的爬虫应运而生,姑且叫做狭义爬虫,它突破了网站的robots协议规定,即不遵守限制性获取网站的信息获取,可以任意的进行信息搜索获取甚至是下载,当然,反爬虫措施也同样存在.

  • 虽然两个资源相等对立,但是爬虫永远是胜利的一方。然而爬虫在一定基础上属于灰色产业:有可能涉及到数据的交易,商业用途需要谨慎了解:《刑法》第 285 条,非法获取计算机信息系统数据罪。获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,处三年以下有期徒刑或者拘役,并处或者单处罚金;最高处七年有期徒刑并处罚金。《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。当然百度谷歌都是爬虫的依赖者,这其中与大公司分不清关系,但是自己还是要把握分寸,才能立于胜利之地。

简单了解URL

参数 定义 作用
ie utf-8 编码
tn baidu 识别搜索引擎
wd URL 搜索关键字

查看该网页的源URL

  • Firefox或chrome的F12可直接进入开发者调试,对相应的项目进行操作.

u1DXXF.png

  • 得到网页的源代码后,接下来便是模拟请求数据到本地进行数据分析解码,当然这是最简单的请求,对于动态加载的Ajax,该网页可以认为只是一个框架.只有js渲染请求后,网页才能具体显示,这只是开始.
-------------本文结束感谢您的阅读-------------