Python使用mechanize模拟浏览器之前我使用自带的urllib2模拟浏览器去进行访问网页等操作,很多网站都会出错误,还会返回乱码,之后使用了 mechanize模拟浏览器,这些情况都没出现过,真的很好用,这里向大家推荐一下。
mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。首先从安装开始吧,以ubuntu系统为例:pytho...
分类:
编程语言 时间:
2015-06-06 10:36:40
阅读次数:
147
#!/usr/bin/python
import?urllib2
import?sys
def?stock_data(stock_id,?stock_num,?purchase_price):
????url?=?‘http://hq.sinajs.cn/list=%s%06d‘?%?((stock_id?==?1?or?stock_id?>?600...
分类:
编程语言 时间:
2015-06-05 18:00:57
阅读次数:
295
在对网站发送请求的时候,一直出现503错误,代码如下: HTTP Error 503: Service Unavailable 查询网络原因,主要是对方对自动化查询做了限制,可以修改header头来欺骗他,但是这种方法并不总是有效,可以参考链接: http://stackoverflo...
分类:
编程语言 时间:
2015-06-03 06:07:50
阅读次数:
248
1 import urllib2 2 response = urllib2.urlopen("http://www.baidu.com") 3 html = response.read() 4 5 #eg2 6 import urllib2 7 req = urllib2.Request("ht.....
分类:
编程语言 时间:
2015-06-02 12:46:20
阅读次数:
126
加入实验室,要写爬虫,以前写过java的,新学python练练手首先是发包程序,框架如下:首先是POST方式,代码如下: 1 import urllib 2 import urllib2 3 url='http://someserver.com/cgi-bin/register.cgi' 4 use...
分类:
编程语言 时间:
2015-05-30 23:57:40
阅读次数:
181
【urllib2】1、基本用法 。 2、geturl()方法 3、urllib.urlencode方法。 4、添加post数据 。 5、连接的过程最容易出错。
分类:
Web程序 时间:
2015-05-28 19:56:47
阅读次数:
143
1、使用python的库urllib2,用到urlopen和Request方法。2、方法urlopen原形urllib2.urlopen(url[, data][, timeout])其中:url表示目标网页地址,可以是字符串,也可以是请求对象Requestdata表示post方式提交给目标服务器的...
分类:
编程语言 时间:
2015-05-27 15:30:13
阅读次数:
171
最近用python做了个小crawler, 可以自动整理一些网站的内容,推送到当地文件中,做个小小的总结。
主要lib就是urllib 和 beautifulsoup.
urllib和urllib2是很方便的网页提取库,核心就是发送各种自定义的url request,然后可以返回网页内容。 最简单的函数,判定一个网页是否存在:
def isUrlExists(url):
...
分类:
编程语言 时间:
2015-05-26 10:49:11
阅读次数:
190
原理和上章获取段子一样,只不过是换了解析的内容。
代码:
#-*- coding: utf-8 -*-
import urllib2
import re
def GetPageContent(page_url,heads):
try:
req = urllib2.Request(page_url,headers=heads)
resp = urllib...
分类:
编程语言 时间:
2015-05-25 10:02:53
阅读次数:
166