1.什么是爬虫?请求网站并提取数据的自动化程序(让程序替你去上网) 2.爬虫的基本流程(1)向服务器发起请求(2)获取网页内容(3)解析内容(4)保存数据 3.什么是request和response请求与响应:浏览器与服务器(也是一台计算机)之间的交流。 4.request中包含了什么?(1)请求方 ...
分类:
其他好文 时间:
2018-08-25 19:58:12
阅读次数:
198
商品id生成策略:当前时间毫秒值+两位随机数,不足两位前面补零。 添加商品,返回的是自定义结构(包括响应状态,响应消息,响应数据),查询商品表和商品描述表。 内容服务系统: 内容分类表:tb_content_category id,名字,是否父节点,父id。主键返回。 内容表:tb_content ...
分类:
其他好文 时间:
2018-08-20 01:09:49
阅读次数:
185
requests模块安装resquests模块py-2-mpipinstallrequestspy-3-mpipinstallrequestsget方法get请求使用的是requests模块已经封装好的get方法,该方法的原型为:get(url,params=None,kwargs)发送一个get请求参数说明:url:请求的urlparams:传递查询的参数,可以是字典类型,也可以是bytes类型
分类:
其他好文 时间:
2018-08-17 16:29:40
阅读次数:
105
HTTP简介、请求方法与响应状态码 接下来想系统的回顾一下TCP/IP协议族的相关东西,当然这些东西大部分是在大学的时候学过的,但是那句话,基础的东西还是要不时的回顾回顾的。接下来的几篇博客都是关于TCP/IP协议族的,本篇博客就先简单的聊一下TCP/IP协议族,然后聊一下HTTP协议,然后再聊一下 ...
分类:
Web程序 时间:
2018-08-04 15:49:02
阅读次数:
302
1. 什么是爬虫(重点掌握) 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做. 2.爬虫的分类 通用爬虫:通常指搜索引擎的爬虫 聚焦爬虫:针对特定网站的爬虫 3 ...
分类:
其他好文 时间:
2018-08-01 14:19:54
阅读次数:
153
接入第三方支付,以下是常规验证:1.正常支付,验证响应结果,及内部后续处理,如清算、交易明细、资金余额加减情况、账务等;2.支付限额。支付宝对于不同的支付有渠道限额,交易限额,风控限额;3.支付冲正。验证同步响应成功,扣款成功后,异步又通知交易失败的情况;4.支付退款。能支付就可以退款,根据你们的业 ...
分类:
其他好文 时间:
2018-07-31 22:08:40
阅读次数:
124
响应: 响应状态码、响应头、响应体 响应状态码: 表2 3常见的错误代码及错误原因 | 状态码 | 说明 | 详情 | | | | | | 100 | 继续 | 请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 | | 101 | 切换协议 | 请求者已要求服务器 ...
分类:
编程语言 时间:
2018-07-29 22:31:35
阅读次数:
234
请求头: Accept:指浏览器或其他客户可以接爱的MIME文件格式。可以根据它判断并返回适当的文件格式。 Accept-Charset:指出浏览器可以接受的字符编码。英文浏览器的默认值是ISO-8859-1. Accept-Language:指出浏览器可以接受的语言种类,如en或en-us,指英语 ...
分类:
Web程序 时间:
2018-07-28 13:48:32
阅读次数:
153
0.参考 https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.redirect https://doc.scrapy.org/en/latest/ ...
分类:
其他好文 时间:
2018-07-18 20:45:22
阅读次数:
361
HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到RFC 2518、RFC 2817、RFC 2295、RFC 2774、RFC 4918等规范扩展。 1xx(临时响应) 表示临时响应并需要请求者继续执行操 ...
分类:
Web程序 时间:
2018-07-15 13:49:47
阅读次数:
246