Python写的Web spider:
# web spider
# author vince 2015/7/29
import urllib2
import re
# get href content
pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"'
t = set("") # collection of url
def...
分类:
编程语言 时间:
2015-07-29 21:29:10
阅读次数:
144
一个简单的python程序,用于下载pdf/txt/ppt等网页资源下载。import urllib
import urllib2
import re
import socket#######################You may change here###############
baseurl = '##########' #请自行添加下载网页地址
format = '(pdf...
分类:
Web程序 时间:
2015-07-28 16:03:14
阅读次数:
132
一直都想做一个网页的excel导出功能,最近抽时间研究了下,使用urllib2与BeautifulSoup及xlwt模块实现 urllib2这个模块之前有用过,关于BeautifulSoup模块,可参看http://www.bkjia.com/Pythonjc/992499.html ,介绍的...
分类:
编程语言 时间:
2015-07-27 20:52:34
阅读次数:
2386
想法和一些代码引用邸一幕python培训黄哥python爬虫联想词视频,但是太罗嗦。顺便整理,而到现在为止,360不傻。它已演变,用原来的方式,有些bug,这接着说。正题例如以下:语言:python2.7.6模块:urllib,urllib2,re,time目标:输入随意词,抓到其联想词版本号:w1...
分类:
编程语言 时间:
2015-07-26 08:36:02
阅读次数:
610
这个题是阿里的一个电话面试题,我想的头一个解决方案,有点限制,后面再写优化的
实验数据,python从百度抓得:
# -*- coding: utf-8 -*-
"""
Spyder Editor
This is a temporary script file.
"""
import urllib2
import re
import os
#connect to a URL...
分类:
Web程序 时间:
2015-07-25 01:45:24
阅读次数:
809
import urllib, urllib2, cookielibfrom HTMLParser import HTMLParserimport sysreload(sys)sys.setdefaultencoding('utf8')class WebParser(HTMLParser): d...
分类:
编程语言 时间:
2015-07-23 19:07:45
阅读次数:
123
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。...
分类:
编程语言 时间:
2015-07-21 18:46:39
阅读次数:
117
http://www.dianping.com/shop/8010173 File "综合商场1.py", line 152, in httpCrawler(url) File "综合商场1.py", line 34, in httpCrawler getEachShop(shops) File ....
分类:
Web程序 时间:
2015-07-21 11:57:45
阅读次数:
1039
安装: 使用的是sublime2: 1.呼出命令行:ctrl+` 2.在命令行中输入 sublime2: import urllib2,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a3098092775ccb37...
分类:
其他好文 时间:
2015-07-19 17:59:43
阅读次数:
181
一、urllib2发送请求import urllib2
url = 'http://www.baidu.com'
req = urllib2.Request(url)
response = urllib2.urlopen(req)
print response.read()
print response.geturl()
print response.info()
urllib2用一个Re...
分类:
Web程序 时间:
2015-07-16 22:16:01
阅读次数:
121