站在网站管理的角度,如果在同一时间段,大家全部利用爬虫程序对自己的网站进行爬取操作,那么这网站服务器能不能承受这种负荷?肯定不能啊,如果严重超负荷则会时服务器宕机(死机)的,对于一些商业型的网站,宕机一秒钟的损失都是不得了的,这不是一个管理员能承担的,对吧?那管理员会网站服务器做什么来优化呢?我想到 ...
分类:
Web程序 时间:
2017-11-02 11:26:35
阅读次数:
235
1.掌握python的基本语法知识2.学会如何抓取HTML页面: HTTP请求的处理:urlib、urlib2及requests(reqests对urllib和urllib2进行了封装 ,功能相当于二者的和) 处理后的请求可以模拟浏览器发送的请求,获取浏览器的响应3.解析服务器响应的内容: re、xpath、BeautifulSoup4(bs4)、j..
分类:
编程语言 时间:
2017-11-02 11:23:05
阅读次数:
146
URL与URI 我们经常接触到的就是URL了,它就是我们访问web的一个字符串地址,那么URI是什么呢?他们是什么关系呢? URL:uniform resource location 统一资源定位符 URI:uniform resource identifier 统一资源标识符 这也就是说,URI是 ...
分类:
Web程序 时间:
2017-11-02 01:00:26
阅读次数:
261
import urllib.requestimport reresponse = urllib.request.urlopen("http://tieba.baidu.com/p/2460150866")page = response.read()page = page.decode('utf-8' ...
分类:
编程语言 时间:
2017-11-02 00:06:17
阅读次数:
229
import reimport urllib.request# import urllibimport osdef getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.decode('UTF- ...
分类:
编程语言 时间:
2017-11-02 00:04:21
阅读次数:
240
#coding=utf-8import urllibimport re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(https: ...
分类:
其他好文 时间:
2017-11-01 22:56:44
阅读次数:
220
爬虫章节 1.python如何访问互联网 URL(网页地址)+lib=》urllib 2.有问题查文档:python document. 3.response = urllib.request.urlopen(""www.baidu.com) html =html.decode("utf-8") 破 ...
分类:
编程语言 时间:
2017-11-01 01:08:11
阅读次数:
165
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 ...
分类:
编程语言 时间:
2017-10-31 12:45:25
阅读次数:
324
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要 ...
分类:
编程语言 时间:
2017-10-31 12:41:30
阅读次数:
274
#Author:Mini#!/usr/bin/env pythonimport urllib.requestimport urllib.parsefrom sina.miniweibo import APIClientdef weibo(): APP_KEY="2911889655" APP_SEC ...
分类:
编程语言 时间:
2017-10-30 18:19:12
阅读次数:
231