码迷,mamicode.com
首页 > 编程语言 > 详细

八月份课堂--Python爬虫(Spider)基础

时间:2019-07-21 21:23:32      阅读:162      评论:0      收藏:0      [点我收藏+]

标签:post请求   简洁   模拟session   用户登陆   post   ip地址   改变   socket   例子   

一、爬虫(Spider)

 

请求网站,提取网页内容的最大化程序。获取到的是html代码,需要从这些文本中提取需要的数据。

HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。

HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

SSL(Secure Sockets Layer 安全套接层)是为网络通信提供安全及数据完整性的一种安全协议。SSL在传输层对网络连接进行加密

 

公众平台接口不再支持http方式调用,在 2017年12月30日 后所有网站都必须是 HTTPS 方式调用

URL(统一资源定位符)基本格式:

基本格式:scheme://host[:port#]/path/.../[?query-string][#anchor]
scheme:协议。如:http、https、ftp
host:服务器的IP地址or域名。如:192.168.0.11
port#:服务器的端口。(http默认端口为80,https默认端口为443)
path:访问资源的路径
query-string:参数,发送给http服务器的数据
anchor:锚(跳转到网页的指定铺点链接地址)
 
 
GET是从服务器上获取数据,POST是向服务器传送数据。
在客户端, GET方式在通过URL提交数据,数据在URL中可以看到;POST方式,数据放置在HTML HEADER内提交

GET请求相当于我们在数据库中做了查询的操作,不影响数据库本身的数据。
POST请求相当于在数据库中做了修改的操作,会影响数据库本身的数据(如:注册、发帖、评论、得到积分,此时服务器资源状态发生了改变)。
 
 
简单的例子:
 https://www.cnblogs.com/zhaof/p/6910871.html
 
Python爬虫框架:python的urllib包提供了较为完整的访问网页文档的API
模拟浏览器行为,模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requests,mechanize
python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理
 
 

八月份课堂--Python爬虫(Spider)基础

标签:post请求   简洁   模拟session   用户登陆   post   ip地址   改变   socket   例子   

原文地址:https://www.cnblogs.com/liurg/p/11144325.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!