码迷,mamicode.com
首页 >  
搜索关键字:网络爬虫    ( 1546个结果
基于Python的urllib2模块的多线程网络爬虫程序
1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcess...
分类:编程语言   时间:2014-07-11 21:41:10    阅读次数:217
python网络爬虫入门(一)——简单的博客爬虫
最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。 先把完整的代码贴上来,如果朋友们需要试验下,请...
分类:编程语言   时间:2014-07-06 10:11:48    阅读次数:325
Python 实现的下载op海贼王网的图片(网络爬虫)
没得事就爬一下我喜欢的海贼王上的图片 需要在d盘下建立一个imgcache文件夹 # -*- coding: utf-8 -*- import urllib import urllib2 import json from bs4 import BeautifulSoup import threadpool import thread class htmlpaser: de...
分类:编程语言   时间:2014-06-29 07:15:05    阅读次数:304
Scrapy精华教程(六)——自动爬取网页之II(CrawlSpider)
一.目的。 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存。 但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎...
分类:Web程序   时间:2014-06-27 09:37:22    阅读次数:15554
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234finalWebClient webClient=newWebClient();finalHtmlPage page=webClient.getPage("...
分类:Web程序   时间:2014-06-22 23:47:37    阅读次数:373
爬虫超时解决办法
做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢! 1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改 2,设置get方法请求超时为 5 秒 GetMethod getMethod=new GetMethod(url); getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000); 3,设置 Http 连接超时为5秒 HttpClient httpClient=new Http...
分类:其他好文   时间:2014-06-19 11:24:05    阅读次数:354
c++开源爬虫-Larbin简介
因为最近学校实训,做的是一个搜索相关的项目,并且是c++的一个项目,所以就想到了larbin,于是接下来几天就现研究研究其源码,再根据项目需求修改其源码。 不多说,直接进入今天的正题。今天的目的就是简单了解下larbin。 Larbin简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是...
分类:编程语言   时间:2014-06-18 11:34:10    阅读次数:564
Lucene+网络爬虫
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~好了,先个..
分类:其他好文   时间:2014-06-17 18:09:07    阅读次数:192
Lucene+网络爬虫
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一...
分类:其他好文   时间:2014-06-17 14:15:31    阅读次数:193
定向数据爬虫和搜索引擎(Directional Spider)设计文档
定向数据网络爬虫和搜索引擎项目设计(新闻数据抓取、分析、加工、检索)版本号: v 1.0.0 编写人: 张 文 豪 日 期: 2014年6月10日文档说明:这个文档还在编写之中,文章中很多写在“保留”二字的不是每月东西,而是没有写。虽然没有具体实现,但是我觉得我把我的经验和思考都写进去了。虽然对于读...
分类:其他好文   时间:2014-06-15 08:25:48    阅读次数:399
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!