首先是源码: 错误故障: 根据错误提示 在网上找到以下几个点: 1. requests 模块太老,须升级: 2. 连接数太多,没有释放: 3. 加代理服务器: 分析: 因为是自建的网站,所以排除封锁IP的可能,所以代理服务器方法不用尝试。 尝试方法1和2,看后续效果。 ...
分类:
Web程序 时间:
2018-09-14 11:03:22
阅读次数:
299
一、摘要 突发奇想想读取12306的车票信息,最开始想用requests,但是突然又想试试selenium的无界面浏览器。有部分正则没调好,写好就懒得调了。 套用我师傅的话就是:我凭本事写的bug,凭什么要改! 二、方案思路 url = https://kyfw.12306.cn/otn/leftT ...
分类:
编程语言 时间:
2018-09-14 00:09:01
阅读次数:
234
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 ...
分类:
编程语言 时间:
2018-09-13 21:38:16
阅读次数:
210
import pymysql import requests import json from faker import Faker f = Faker(locale="zh CN") def duang(): user_agent = f.user_agent() phone = f.phone_ ...
分类:
编程语言 时间:
2018-09-13 20:50:52
阅读次数:
196
<!--done--> 爬虫简介 概述 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。 网络爬虫,即Web Spider,是一个很形象的名字。如果把 ...
分类:
其他好文 时间:
2018-09-12 22:58:05
阅读次数:
282
一. 进程和线程的区别? 第一: 进程是cpu资源分配的最小单元。 线程是cpu计算的最小单元。 第二: 一个进程中可以有多个线程。 第三: 对于Python来说他的进程和线程和其他语言有差异,是有GIL锁。 GIL锁保证一个进程中同一时刻只有一个线程被cpu调度。 IO密集型操作可以使用多线程;计 ...
分类:
编程语言 时间:
2018-09-12 21:09:14
阅读次数:
210
1.基本写法 2.带参数GET请求 3.解析JSON 4.获取二进制数据(这里以获取图片的二进制数据为例) 5.添加headers 6.基本POST请求 7.状态码判断 8.文件上传 9.获取Cookie 10.会话维持 11.证书验证 12.认证设置 13.超时设置 14.异常处理 希望对大家能有 ...
分类:
其他好文 时间:
2018-09-11 18:01:29
阅读次数:
189
之前介绍的Requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费资源。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率一定会大大提高。 aiohttp就是这 ...
分类:
编程语言 时间:
2018-09-11 16:23:15
阅读次数:
159
爬虫系列之第1章-requests模块 爬虫系列之第2章-BS和Xpath模块 爬虫系列之第3章-Selenium模块 爬虫系列之第4章-scrapy框架 ...
分类:
其他好文 时间:
2018-09-10 13:26:07
阅读次数:
140
#-*-coding:utf8-*-#参考学习官方资料 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html#POST请求与POST的提交方式(比如post请求方式,application/json编码后的提交)#appl ...
分类:
编程语言 时间:
2018-09-10 11:18:59
阅读次数:
162