HTTP请求415错误 – 不支持的媒体类型(Unsupported media type)通常有以下情况:1:检查你的 http 请求头信息,比如 因为 User-Agent 被服务器设置 拒绝请求了; 比如你写的的爬虫,就很有可能因为没有伪装成浏览器,被拒绝请求 user-agent 详情2.....
分类:
其他好文 时间:
2014-09-22 18:06:22
阅读次数:
385
很多企业要求利用爬虫去爬取商品信息,但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架,而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的,只需要通过简单的转换既可。...
分类:
编程语言 时间:
2014-09-22 15:47:02
阅读次数:
4678
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:
编程语言 时间:
2014-09-22 02:43:01
阅读次数:
301
1、 爬虫(Spider)——数据来源 作为搜索引擎海量数据的来源,爬虫是搜索引擎技术的重要一环,闻道软件工作室有自己开发的爬虫,所以对此技术很熟悉。 爬虫的英文是Spider,其实翻译成蜘蛛更容易理解,无数网站的链接构成了一张巨大的网,搜索引擎的内容采集程序就像一只只勤劳的蜘蛛在这张网上爬...
分类:
其他好文 时间:
2014-09-22 02:11:11
阅读次数:
308
四、更新策略 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。 2.用户体验策略 尽管搜索引擎针对于....
分类:
其他好文 时间:
2014-09-22 00:31:21
阅读次数:
219
1. 网站结构 对于搜索引擎优化,网站的结构是最重要的因素之一。网站结构是所有关于你的网页是如何联系在一起。搜索引擎爬虫的基础上它的设置方式判断你的网站的价值。文件层次结构和站点地图起到无论是否获得高排名第至关重要的作用。 如果你想受到广大用户寻找你相关的关键字可以找到,你的网站需要逻辑布局,易.....
分类:
其他好文 时间:
2014-09-20 21:08:09
阅读次数:
309
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284
近日本人维护的一个客户网站打开非常慢,于是便按照以往的排查步骤进行排查1,登录服务器top命令查看负载IO情况发现负载有点高并有很多php进程占了很大的资源2,进入mysql服务器查看数据库线程,并没有发现锁表情况。3,打开web访问日志发现有很多百度爬虫访问。导致点了很多..
分类:
Web程序 时间:
2014-09-18 16:51:24
阅读次数:
207
转载:http://www.floatinglife.cn/关于heritrix安装配置时出现必须限制口令文件读取访问最近开始写一个RSS聚合程序,需要爬虫支持,于是就整来heritrix,没想到,这东西还挺拽,费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力,终于起来了,具体步骤...
分类:
其他好文 时间:
2014-09-18 00:38:12
阅读次数:
369
?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记? ? ? ? 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在...
分类:
编程语言 时间:
2014-09-17 19:01:42
阅读次数:
269