1. 网站结构 对于搜索引擎优化,网站的结构是最重要的因素之一。网站结构是所有关于你的网页是如何联系在一起。搜索引擎爬虫的基础上它的设置方式判断你的网站的价值。文件层次结构和站点地图起到无论是否获得高排名第至关重要的作用。 如果你想受到广大用户寻找你相关的关键字可以找到,你的网站需要逻辑布局,易.....
分类:
其他好文 时间:
2014-09-20 21:08:09
阅读次数:
309
同Java一样,Pyton异常对象来表示异常情况。遇到错误后,引发异常,如果异常对象并未对处理或捕捉,程序就会用所谓的回溯(Traceback)来终止执行;
>>> 1/0
Traceback (most recent call last):
File "", line 1, in
ZeroDivisionError: division by zero
程序可以通过rais...
分类:
编程语言 时间:
2014-09-19 17:37:55
阅读次数:
251
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284
近日本人维护的一个客户网站打开非常慢,于是便按照以往的排查步骤进行排查1,登录服务器top命令查看负载IO情况发现负载有点高并有很多php进程占了很大的资源2,进入mysql服务器查看数据库线程,并没有发现锁表情况。3,打开web访问日志发现有很多百度爬虫访问。导致点了很多..
分类:
Web程序 时间:
2014-09-18 16:51:24
阅读次数:
207
转载:http://www.floatinglife.cn/关于heritrix安装配置时出现必须限制口令文件读取访问最近开始写一个RSS聚合程序,需要爬虫支持,于是就整来heritrix,没想到,这东西还挺拽,费了老衲好几个小时来安装配置这个heritrix。最后经过不懈努力,终于起来了,具体步骤...
分类:
其他好文 时间:
2014-09-18 00:38:12
阅读次数:
369
?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记? ? ? ? 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在...
分类:
编程语言 时间:
2014-09-17 19:01:42
阅读次数:
269
XSScrapy是一个快速、直接的XSS漏洞检测爬虫,你只需要一个URL,它便可以帮助你发现XSS跨站脚本漏洞。XSScrapy的XSS漏洞攻击测试向量将会覆盖Http头中的Referer字段User-Agent字段Cookie表单(包括隐藏表单)URL参数RUL末尾,如www.example.co...
分类:
其他好文 时间:
2014-09-17 11:45:42
阅读次数:
204
python真是一门非常优秀的语言,非常适合初学者,也非常适合写一些原型程序。这篇文章总结了下以前做的各种和网络相关的东西:自动登录、提取信息、模拟点击、模拟上传、取号等等,多亏了python才使世界变得那么美好! 本次我们主要是模拟浏览器下载网页,学会了下载网页其他的下载图片什么的都是一样的套路。...
分类:
编程语言 时间:
2014-09-16 21:48:21
阅读次数:
310
最近互联网思维这个词很火,各种产品被包装成了高大上,然后一群神棍把小白们忽悠的昏天黑地。到处都是小米,黄太吉,马佳佳,雕爷牛腩的成功案例。但是今天,我的文章与互联网思维没有半毛线关系,前面也都是废话。我用最真实最新鲜热乎的数据来告诉你,真正的互联网安全套行业是什么样的。
======华丽的分割线===========
数据来源:通过爬虫技术对主流的套套平台的公开页面进行大量的数据抓取。
数据...
分类:
其他好文 时间:
2014-09-16 10:51:35
阅读次数:
445
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格。搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫。先分析商品页面,在http://www.muyin...
分类:
Web程序 时间:
2014-09-14 18:00:07
阅读次数:
195