码迷,mamicode.com
首页 >  
搜索关键字:guozhongcrawler 爬虫    ( 10454个结果
爬虫超时解决办法
做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢! 1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改 2,设置get方法请求超时为 5 秒 GetMethod getMethod=new GetMethod(url); getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000); 3,设置 Http 连接超时为5秒 HttpClient httpClient=new Http...
分类:其他好文   时间:2014-06-19 11:24:05    阅读次数:354
使用python抓取CSDN关注人的所有发布的文章
使用python抓取CSDN关注人的所有发不过的文章...
分类:编程语言   时间:2014-06-19 09:35:54    阅读次数:273
Python爬虫之路——简单网页抓图升级版(增加多线程支持)
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路——简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了...
分类:编程语言   时间:2014-06-15 16:30:20    阅读次数:344
如何优化网站关键词.
第一点:做好关键词分析(也叫关键词定位):这是进行SEO优化最重要的一环,关键词分析包括:关键词注重量分析、竞争对手分析、关键词与网站相关性分析、关键词安顿、关键词排行猜想。 第二点:网站架构分析:网站结构符合搜索引擎的爬虫喜欢则有利于SEO优化。网站架构分析包括:除去网站架构不良计划、完结树状目....
分类:Web程序   时间:2014-06-12 20:13:00    阅读次数:309
【自用】爬虫配置XML时拼接URL中文转Unicode问题(例如北京转成%u5317%u4EAC)
${"%u"+java.lang.Integer.toHexString(region.toString().charAt(s.toInt()))} 这样转换成的每个字符后面会有空行,用的时候需要regionUnicode.toSt...
分类:其他好文   时间:2014-06-12 17:47:11    阅读次数:186
日益封闭的百度,教我如何信任你?
不知从何时开始,百度禁止或者减少了用户在搜索栏中使用“site”这样的关键字进行百度云盘的内容搜索。比如:但是如果是使用bing或是google还是可以搜索出这两个大咖的爬虫缓存过的信息,如bing的缓存记录:小谷由于XX原因,让我大中华和谐了,反正我现在的网络是进不去,就不演示了。但是你直接单击连...
分类:其他好文   时间:2014-06-10 16:48:42    阅读次数:269
爬虫技术(六)-- 使用HtmlAgilityPack获取页面链接(附c#代码及插件下载)
菜鸟HtmlAgilityPack初体验。。。弱弱的代码。。。Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航。使用WebBrowser和HttpWebRequest下载的网页可以用Html Agility Pack来解析。HtmlAgilityPa...
分类:Web程序   时间:2014-06-08 20:07:13    阅读次数:502
爬虫技术(四)-- 简单爬虫抓取示例(附c#代码)
这是我的第一个爬虫代码。。。算是一份测试版的代码。大牛大神别喷。。。通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配。List todo:进行抓取的网址的集合List visited :已经访问过的网址的集合下面实现的是,给定一个初始地址,然后进行爬虫,...
分类:其他好文   时间:2014-06-08 19:57:54    阅读次数:309
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!