码迷,mamicode.com
首页 >  
搜索关键字:guozhongcrawler 爬虫    ( 10454个结果
[Python学习] 专题二.条件语句和循环语句的基础知识
前面讲述了"专题一.函数的基础知识",而这篇文章讲述的Python的条件语句和循环语句的基础知识.主要内容包括: 1.条件语句:包括单分支、双分支和多分支语句,if-elif-else 2.循环语句:while的使用及简单网络刷博器爬虫 3.循环语句:for的使用及遍历列表、元组、文件和字符串 基础知识仅供大家学习...
分类:编程语言   时间:2014-09-22 21:58:33    阅读次数:348
python解析xml
了解xml :         解析之前首先对xml 做个了解。         来自维基百科的解释:                    XML设计用来传送及携带数据信息,不用来表现或展示数据,HTML语言则用来表现数据,所以XML用途的焦点是它说明数据是什么,以及携带数据信息。         如果你已经了解xml,可以跳过这一部分。        xml是一种描述层次结构化数...
分类:编程语言   时间:2014-09-22 21:43:53    阅读次数:347
怎样用java编程抓取动态生成的网页
刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中,再去浏览器查看源码果然是这样的,在源码中确实没有我需要的数据,看来不是我程序写错了,接下来让人身心疲惫的事情来...
分类:编程语言   时间:2014-09-22 20:02:53    阅读次数:301
php爬虫的两种思路
写php爬虫可能最大的问题就是php脚本执行时间的问题了,对于这个问题,我找到了两种解决方法。 第一种通过代码set_time_limit(0)或者ini_set("max_execution_time", "1800");来执行。 对于技术的追求当然不止如此。 防止因客户端断开连接终止脚...
分类:Web程序   时间:2014-09-22 18:56:03    阅读次数:209
HTTP请求415错误 – 不支持的媒体类型(Unsupported media type)
HTTP请求415错误 – 不支持的媒体类型(Unsupported media type)通常有以下情况:1:检查你的 http 请求头信息,比如 因为 User-Agent 被服务器设置 拒绝请求了; 比如你写的的爬虫,就很有可能因为没有伪装成浏览器,被拒绝请求 user-agent 详情2.....
分类:其他好文   时间:2014-09-22 18:06:22    阅读次数:385
用JAVA制作一个爬取商品信息的爬虫(爬取大众点评)
很多企业要求利用爬虫去爬取商品信息,但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架,而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的,只需要通过简单的转换既可。...
分类:编程语言   时间:2014-09-22 15:47:02    阅读次数:4678
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:编程语言   时间:2014-09-22 02:43:01    阅读次数:301
百度的搜索引擎相关技术的分析
1、 爬虫(Spider)——数据来源 作为搜索引擎海量数据的来源,爬虫是搜索引擎技术的重要一环,闻道软件工作室有自己开发的爬虫,所以对此技术很熟悉。 爬虫的英文是Spider,其实翻译成蜘蛛更容易理解,无数网站的链接构成了一张巨大的网,搜索引擎的内容采集程序就像一只只勤劳的蜘蛛在这张网上爬...
分类:其他好文   时间:2014-09-22 02:11:11    阅读次数:308
网络爬虫基本原理(二)
四、更新策略 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。 2.用户体验策略 尽管搜索引擎针对于....
分类:其他好文   时间:2014-09-22 00:31:21    阅读次数:219
9个搜索引擎优化(SEO)最佳实践
1. 网站结构 对于搜索引擎优化,网站的结构是最重要的因素之一。网站结构是所有关于你的网页是如何联系在一起。搜索引擎爬虫的基础上它的设置方式判断你的网站的价值。文件层次结构和站点地图起到无论是否获得高排名第至关重要的作用。 如果你想受到广大用户寻找你相关的关键字可以找到,你的网站需要逻辑布局,易.....
分类:其他好文   时间:2014-09-20 21:08:09    阅读次数:309
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!