最近互联网思维这个词很火,各种产品被包装成了高大上,然后一群神棍把小白们忽悠的昏天黑地。到处都是小米,黄太吉,马佳佳,雕爷牛腩的成功案例。但是今天,我的文章与互联网思维没有半毛线关系,前面也都是废话。我用最真实最新鲜热乎的数据来告诉你,真正的互联网安全套行业是什么样的。
======华丽的分割线===========
数据来源:通过爬虫技术对主流的套套平台的公开页面进行大量的数据抓取。
数据...
分类:
其他好文 时间:
2014-09-16 10:51:35
阅读次数:
445
基本环境:linux centos6.5 nutch2.2.1源码包,mysql 5.5 ,elasticsearch1.1.1, jdk1.71、下载地址http://mirror.bjtu.edu.cn/apache/nutch/2.2.1/解压2、修改数据存储方式是mysql 修改nutch....
分类:
数据库 时间:
2014-09-12 13:25:43
阅读次数:
406
今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable实现了Writ...
分类:
Web程序 时间:
2014-08-22 15:59:58
阅读次数:
242
利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦。耽误了好久,还是豆瓣好呀,URL那么的规范。唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon
├──?amazon
│??...
分类:
编程语言 时间:
2014-08-22 05:03:45
阅读次数:
3369
感觉awk判断语句像是乱序的,这一周学习awk总结grep "all_time" log/bn-as.log | head -4000 | grep -o baidu_id="[a-z|A-Z|0-9_]*"| awk -F '=' '{if($2 != "") print $2 >> "outpu...
分类:
其他好文 时间:
2014-08-20 19:26:02
阅读次数:
178
用Spider抓取数据,然后再做各种处理,然后放到web页面供大家使用。
那么,就需要一个Web Server。
几乎每种语言都有一大堆Web Server开发框架,Python也不例外,比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473...
分类:
Web程序 时间:
2014-08-15 16:07:38
阅读次数:
196
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。
有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。
爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:
Web程序 时间:
2014-08-04 17:37:47
阅读次数:
285
网上找了很多资料,PHP的比较多,然后找到有csv文件的,处理起来很麻烦,国外的网站速度很慢。
最后还是去页面上抓取数据,我是从中国银行抓取的,各位可去其他网站抓取。
1、模拟请求URL。
string url = "http://srh.bankofchina.com/search/whpj/search.jsp?pjname=1316";
HttpWebRequest reques...
分类:
Web程序 时间:
2014-07-23 17:00:01
阅读次数:
228
参考url: http://blog.csdn.net/baronyang/article/details/9323463我的需求: 抓取数据生成的日志,日志中有部分是抓取失败的,需要将失败的发送到另一个部分,但是成功了的就不需要发送; 设置checkbox: function formatCK.....
分类:
其他好文 时间:
2014-07-22 22:42:13
阅读次数:
246
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口...
分类:
其他好文 时间:
2014-07-19 15:13:58
阅读次数:
241