用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字。如下所示:import urllib2url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"u...
分类:
编程语言 时间:
2014-12-25 01:26:02
阅读次数:
175
# coding=utf-8
import urllib2
import urllib
import re
class QiuShi:
def _init_(self):
self.page = 1
# 从网页获取糗事
def GetQiuShis(self,page):
#网址
url = "http://www.qiushibaike.com/...
分类:
编程语言 时间:
2014-12-21 15:22:50
阅读次数:
279
#coding:utf-8, import sys,urllib,urllib2,cookielib,time; url1 = "http://www.xxx.com/mobile/xxx-login.html"; url2 = "http://www.xxx.com/mobile/xxx-post...
分类:
其他好文 时间:
2014-12-20 19:40:16
阅读次数:
177
让sublime text2支持中文 安装Sublime Package Control 在Sublime Text 2上用Ctrl+~打开控制台并在里面输入以下代码,Sublime Text 2就会自动安装Package Control import urllib2,os; pf='Package...
分类:
其他好文 时间:
2014-12-17 20:29:34
阅读次数:
263
1、首先安装package controlPackage Control 安装方法首先通过快捷键 ctrl+` 或者 View > Show Console 打开控制台,然后粘贴相应的 Python 安装代码。Sublime Text 2 安装代码:import urllib2,os; pf='Pa...
分类:
其他好文 时间:
2014-12-16 20:40:39
阅读次数:
349
以下代码,在执行结果中的中文出现乱码。from bs4 import BeautifulSoupimport urllib2request = urllib2.Request('http://www.163.com')response = urllib2.urlopen(request)html_d...
分类:
Web程序 时间:
2014-12-16 16:30:13
阅读次数:
199
因为平时爱好摄影,所以喜欢看看色影无忌论坛的获奖摄影作品,所以写了个小script用来抓取上面的获奖图片,亲自测试可以使用。# -*- coding: UTF-8 -*-#作者Rocky Chen
import re, urllib, sys, os, time, urllib2, cookielib, string
class Download:
def __init__(self...
分类:
编程语言 时间:
2014-12-15 15:33:32
阅读次数:
207
不多说,上代码: 1 #!/usr/bin/python 2 #-*- encoding=utf-8 -*- 3 4 import urllib 5 import urllib2 6 import json 7 8 keys=raw_input('input you word > ') 9 10.....
分类:
编程语言 时间:
2014-12-13 06:05:41
阅读次数:
221
使用python自带的HTMLParser 实现。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2,re
import time,sys
from HTMLParser import HTMLParser
#设置默认编码
type = sys.getfilesystemencoding()
class MyHTMLPar...
分类:
编程语言 时间:
2014-12-10 22:47:44
阅读次数:
239