1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcess...
分类:
编程语言 时间:
2014-07-11 21:41:10
阅读次数:
217
最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。
先把完整的代码贴上来,如果朋友们需要试验下,请...
分类:
编程语言 时间:
2014-07-06 10:11:48
阅读次数:
325
没得事就爬一下我喜欢的海贼王上的图片
需要在d盘下建立一个imgcache文件夹
# -*- coding: utf-8 -*-
import urllib
import urllib2
import json
from bs4 import BeautifulSoup
import threadpool
import thread
class htmlpaser:
de...
分类:
编程语言 时间:
2014-06-29 07:15:05
阅读次数:
304
一.目的。
在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,
在pipelines.py中实现获得数据的过滤以及保存。
但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎...
分类:
Web程序 时间:
2014-06-27 09:37:22
阅读次数:
15554
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234finalWebClient webClient=newWebClient();finalHtmlPage page=webClient.getPage("...
分类:
Web程序 时间:
2014-06-22 23:47:37
阅读次数:
373
做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢!
1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改
2,设置get方法请求超时为 5 秒
GetMethod getMethod=new GetMethod(url);
getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);
3,设置 Http 连接超时为5秒
HttpClient httpClient=new Http...
分类:
其他好文 时间:
2014-06-19 11:24:05
阅读次数:
354
因为最近学校实训,做的是一个搜索相关的项目,并且是c++的一个项目,所以就想到了larbin,于是接下来几天就现研究研究其源码,再根据项目需求修改其源码。
不多说,直接进入今天的正题。今天的目的就是简单了解下larbin。
Larbin简介
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是...
分类:
编程语言 时间:
2014-06-18 11:34:10
阅读次数:
564
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~好了,先个..
分类:
其他好文 时间:
2014-06-17 18:09:07
阅读次数:
192
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一...
分类:
其他好文 时间:
2014-06-17 14:15:31
阅读次数:
193
定向数据网络爬虫和搜索引擎项目设计(新闻数据抓取、分析、加工、检索)版本号: v 1.0.0 编写人: 张 文 豪 日 期: 2014年6月10日文档说明:这个文档还在编写之中,文章中很多写在“保留”二字的不是每月东西,而是没有写。虽然没有具体实现,但是我觉得我把我的经验和思考都写进去了。虽然对于读...
分类:
其他好文 时间:
2014-06-15 08:25:48
阅读次数:
399