import urllib2 import requests #import MySQLdb import webbrowser import string import re from BeautifulSoup import BeautifulSoup def getHtml(page):#获取 ...
分类:
其他好文 时间:
2017-06-15 22:01:25
阅读次数:
212
一:requests模块介绍 requests是第三方http库,可以十分方便地实现python的网络连接,完美替代了urllib2模块。 二:实战 使用requests实现定向爬虫需要两步:首先使用requests获取目标网页的源代码;然后使用requests与正则表达式从中提取信息。 1: ...
分类:
编程语言 时间:
2017-06-15 21:54:52
阅读次数:
198
本文通过摘取 http://blog.csdn.net/howeblue/article/details/47426265 博客上的内容整理而成,有兴趣的可以去看看原文。 urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能。本文主要是描述urllib2。 urllib2 ...
分类:
编程语言 时间:
2017-06-15 12:41:59
阅读次数:
280
requests简介 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licen ...
分类:
其他好文 时间:
2017-06-13 12:52:13
阅读次数:
269
为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他 ...
分类:
其他好文 时间:
2017-06-11 16:30:58
阅读次数:
223
URLerror产生原因: (1)无网络连接 (2)连接不到特定的服务器 (3)服务器不存在 eg: import urllib2 request=urllib2.Request('http://www.xxx.com') try: urllib2.urlopen(request) except u ...
分类:
Web程序 时间:
2017-06-11 16:23:39
阅读次数:
373
1 #-*- coding:utf-8 -*- 2 # -*- coding: utf-8 -*- 3 #encoding:utf-8 4 import urllib 5 import urllib2 6 import cookielib 7 import re 8 9 10 class SDU: ... ...
分类:
其他好文 时间:
2017-06-11 11:28:52
阅读次数:
160
Urllib是Python提供的一个用于操作URL的模块,在Python2.X中,有Urllib库,也有Urllib2库,在Python3.X中Urllib2合并到了Urllib中,我们爬取网页的时候,经常需要用到这个库。下面总结了Urllib相关模块中从Python2.X到Python3.X的常见... ...
分类:
编程语言 时间:
2017-06-09 15:18:15
阅读次数:
156
实现百度搜索并保存到本地User_Agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36' import urllib2... ...
分类:
编程语言 时间:
2017-06-09 15:14:17
阅读次数:
259
Requests是一个很方便的python网络编程库,用官方的话是“非转基因,可以安全食用”。里面封装了很多的方法,避免了urllib/urllib2的繁琐。 这一节使用requests库对猫眼电影的TOP100榜进行抓取。 1 获得页面。 首先确定要爬取的url为http://maoyan.com ...
分类:
其他好文 时间:
2017-06-09 00:47:26
阅读次数:
354