Python 爬虫入门

关于python爬虫的基本认识

爬虫,对于大多数的人来说并不是很陌生,因为它与我们的网络息息相关python爬虫，顾名思义是爬取信息的。大数据时代，信息的获取是非常关键的，它甚至能决定一个公司大发展的方向与未来，互联网就好像一张大网，人们想要获取信息就要从这张大网里爬取，这种手段也可以称为搜索引擎，百度搜狗等属于广义爬虫，姑且这么叫吧，广义爬虫可以在各大网站的允许范围内进行限制性的信息获取，但是这种广义爬虫远远不能满足信息的获取要求，并不能按照人们的意愿来搜索，于是自定义的爬虫应运而生，姑且叫做狭义爬虫，它突破了网站的robots协议规定，即不遵守限制性获取网站的信息获取，可以任意的进行信息搜索获取甚至是下载，当然，反爬虫措施也同样存在.
虽然两个资源相等对立，但是爬虫永远是胜利的一方。然而爬虫在一定基础上属于灰色产业：有可能涉及到数据的交易，商业用途需要谨慎了解：《刑法》第 285 条，非法获取计算机信息系统数据罪。获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，处三年以下有期徒刑或者拘役，并处或者单处罚金；最高处七年有期徒刑并处罚金。《刑法》第285条是对爬取数据的主要定罪依据，有兴趣可以去查下中华人民共和国刑法。当然百度谷歌都是爬虫的依赖者，这其中与大公司分不清关系，但是自己还是要把握分寸，才能立于胜利之地。

简单了解URL

URL通俗来说是网址，通过百科认识，可以得知URL是统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。当然URL是通用的资源定位符，URI同样也是资源定位符，由于URL包括URI，且URL适用范围广，所以URL就占了上风，爬虫是要有目标的，而目标就是URL包含的文件信息，这样就不难理解为什么一定要有个确切的网址才能访问该文件了。
普通的URL应该是”协议：//授权/路径?查询”，如”https://www.baidu.com/s?wd=URL"，"wd=搜索的关键字",”但完整的URL是"//用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志",如"https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=url&oq=uri&rsv_pq=f2dc84cb0008db7c&rsv_t=60afxKKf%2BUXkHJ7oV5ZoSnhpKT%2FY%2F8efqt5olRDcsG7DtOJfw%2Besx5wIYxY&rqlang=cn&rsv_enter=0&rsv_sug3=2&rsv_sug1=2&rsv_sug7=100&bs=uri"上面的每一个&都代表一个属性，还有编码等。而我们从中需要找出关键字点，对网址进行修改处理，解密来获取我们想要的资源定位符url或者说是API，才能有利于爬虫设施的进一步开展。
params

参数	定义	作用
ie	utf-8	编码
tn	baidu	识别搜索引擎
wd	URL	搜索关键字

查看该网页的源URL

Firefox或chrome的F12可直接进入开发者调试,对相应的项目进行操作.

得到网页的源代码后,接下来便是模拟请求数据到本地进行数据分析解码,当然这是最简单的请求,对于动态加载的Ajax,该网页可以认为只是一个框架.只有js渲染请求后,网页才能具体显示,这只是开始.

寻找,学习,记录,分享.

python爬虫一

Python 爬虫入门

关于python爬虫的基本认识

简单了解URL

查看该网页的源URL