没得事就爬一下我喜欢的海贼王上的图片
需要在d盘下建立一个imgcache文件夹
# -*- coding: utf-8 -*-
import urllib
import urllib2
import json
from bs4 import BeautifulSoup
import threadpool
import thread
class htmlpaser:
de...
分类:
编程语言 时间:
2014-06-29 07:15:05
阅读次数:
304
用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本,主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址,得到第一张图片,然后不断的去获取其下一个图片的URL,继而得到所有首页的图集的图片。
整个源码如下,比较简单,写这个只是简单的练手而已
#coding: utf-8 #############...
分类:
编程语言 时间:
2014-06-15 16:30:56
阅读次数:
500
这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj...
分类:
Web程序 时间:
2014-06-11 11:17:54
阅读次数:
994
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3
import urllib2 4 import json 5 import subprocess 6 import threading 7 8
#统计10个最长访问的ip 9 ip_raw =.....
分类:
编程语言 时间:
2014-05-28 21:47:39
阅读次数:
386
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,
然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:
编程语言 时间:
2014-05-27 00:12:25
阅读次数:
323
在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and
geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或...
分类:
编程语言 时间:
2014-05-26 23:17:30
阅读次数:
352
最近有点着迷Python,学习基本语法之后,首先从爬虫开始,看了《使用python登录人人网并发表状态》一文后,很感兴趣,然后又曾经苦于人人网聊天记录删除的繁琐,于是决定写一个聊天记录一键删除的小脚本,好啦,废话不多说:#encoding:utf-8import
urllib2, urllib, c...
分类:
编程语言 时间:
2014-05-24 09:35:03
阅读次数:
390
Python实现抓取http://www.cssmoban.com/cssthemes网站的模版并下载
实现代码
# -*- coding: utf-8 -*-
import urlparse
import urllib2
import re
import os
import os.path
URL='http://www.cssmoban.com/cssthemes'
#全局...
分类:
编程语言 时间:
2014-05-15 09:17:50
阅读次数:
423