没得事就爬一下我喜欢的海贼王上的图片
需要在d盘下建立一个imgcache文件夹
# -*- coding: utf-8 -*-
import urllib
import urllib2
import json
from bs4 import BeautifulSoup
import threadpool
import thread
class htmlpaser:
de...
分类:
编程语言 时间:
2014-06-29 07:15:05
阅读次数:
304
在创建一个job后,就要开始job的运行,运行的全流程如下:
1、在界面上启动job
2、index.jsp
查看上述页面对应的源代码
Start
3、action.jsp
String sAction = request.getParameter("action");
if(sAction != null)
{
// Need ...
分类:
其他好文 时间:
2014-06-20 09:24:23
阅读次数:
272
这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj...
分类:
Web程序 时间:
2014-06-11 11:17:54
阅读次数:
994
最初是想端午节放假3天写一个爬虫,原型版本完成后。。发现自己想要的其实是数据采集工具。目前进度如下已完成:1.简易WPF界面,Log显示,开关暂停2.硬盘结果写入,xml配置文件读写。3.html分析,用的indexof分析全文。但稳定抓了一星期百度贴吧,中途没崩过。未完成:1.xml文件图形化编辑...
分类:
其他好文 时间:
2014-06-08 22:07:41
阅读次数:
261
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~于是到https://www.nuget.org/packages/ScrapySharp去看看,看到这句下载提示:To
install ScrapySharp, run the f...
分类:
Web程序 时间:
2014-06-08 20:23:28
阅读次数:
402
第一、爬虫及其行为方式
1.根集
2.连接的提取和相对链接的标准化
从页面提取出链接,然后把相对链接转化为绝对链接
3.避免环路的出现
4.循环和复制
5.记录爬过得链接
树和散列表有损的存在位图集群和索引
6.规范URL
7.避免循环和重复
规范URL广度优先的爬行节流:限制一段时间内机器人可以从一个WEB站点获取的页面的数量限制URL的大小URL/站点黑...
分类:
Web程序 时间:
2014-06-08 17:18:02
阅读次数:
264
http://webmagic.io/docs/zh/posts/ch1-overview/thinking.htmlhttps://github.com/psvehla/liferay-spring-mvc-portlethttp://www.huqiwen.com/2012/08/30/life...
分类:
Web程序 时间:
2014-06-06 23:40:58
阅读次数:
535
很多语言都能写个爬虫抓取数据,js自然也可以,使用cheerio可以支持css检索,较快捷的获取需要的数据。首先,先把node.js给安装了。可到官网下载。安装好node.js后,使用npm安装cheerio。
我这里使用的是win7,可以在 node.js command prompt 里输入1....
分类:
其他好文 时间:
2014-06-05 19:16:34
阅读次数:
245
下面是一个简单的爬虫程序。#!/usr/bin/env pythonfrom sys
import argvfrom os import makedirs, unlink, sepfrom os.path import dirname,
exists, isdir, splitextfrom str...
分类:
其他好文 时间:
2014-06-05 12:50:50
阅读次数:
341