新版python中,urllib和urllib2合并了,统一为urllib(1)简单爬取网页import urllibcontent = urllib.request.urlopen(req).read().decode("utf-8")(2)添加headerimport urllibreq = u...
分类:
编程语言 时间:
2015-10-03 14:20:07
阅读次数:
216
[python]抓取沪深股市交易龙虎榜数据python 3.5.0下运行没做自动建立files文件夹,需要手动在py文件目录下建立files文件夹后运行#coding=utf-8import gzipimport http.cookiejarimport urllib.requestimport u...
分类:
编程语言 时间:
2015-10-01 19:11:45
阅读次数:
291
安装到https://packagecontrol.io/installation#st3拷贝1 import urllib.request,os,hashlib; h = '2915d1851351e5ee549c20394736b442' + '8bc59f460fa1548d151467616...
分类:
其他好文 时间:
2015-10-01 11:39:12
阅读次数:
298
转自:http://zeping.blog.51cto.com/6140112/1143722urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。urllib:网页基础:importu...
分类:
编程语言 时间:
2015-09-29 11:23:18
阅读次数:
264
转自:http://cuiqingcai.com/954.html1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chro...
分类:
编程语言 时间:
2015-09-29 11:18:26
阅读次数:
271
#encoding=gb2312import urllibimport redef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImg(html): reg = r...
分类:
编程语言 时间:
2015-09-29 07:38:59
阅读次数:
334
[此文原先在论坛上,后来整理文章时从论坛更新到博客上]实验环境:dvwa1.7python2.7关于怎么搭建环境,我们可以看之前的这篇帖子。目的:一点、一点的开始学习用python编写脚本熟悉python的urllib、urllib2这两个模块,并且开始写出一个可以暴力破解的脚本这里我们先来看一下,p..
分类:
编程语言 时间:
2015-09-28 19:22:27
阅读次数:
316
#百度抓取vellinchou的搜索结果import urllibimport urllib.request data={}data['word']='vellinchou' url_values=urllib.parse.urlencode(data)url="http://www.baidu.c...
分类:
其他好文 时间:
2015-09-24 21:01:58
阅读次数:
142
1httplib简介httplib是python中http协议的客户端实现,可以使用该模块来与HTTP服务器进行交互httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容..
分类:
编程语言 时间:
2015-09-24 11:07:15
阅读次数:
199
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址scrape_home_articles.pyfrom urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml = urlopen("h...
分类:
编程语言 时间:
2015-09-23 13:12:05
阅读次数:
208