搜索关键字：抓取数据，搜索到386个结果！码迷,mamicode.com！

【淘宝数据干货】我用数据告诉你互联网安全套行业是什么样的？【不看后悔！！！】

最近互联网思维这个词很火，各种产品被包装成了高大上，然后一群神棍把小白们忽悠的昏天黑地。到处都是小米，黄太吉，马佳佳，雕爷牛腩的成功案例。但是今天，我的文章与互联网思维没有半毛线关系，前面也都是废话。我用最真实最新鲜热乎的数据来告诉你，真正的互联网安全套行业是什么样的。 ======华丽的分割线=========== 数据来源：通过爬虫技术对主流的套套平台的公开页面进行大量的数据抓取。数据...

分类：其他好文时间：2014-09-16 10:51:35 阅读次数：445

nutch2.2.1+mysql抓取数据

基本环境：linux centos6.5 nutch2.2.1源码包，mysql 5.5 ，elasticsearch1.1.1, jdk1.71、下载地址http://mirror.bjtu.edu.cn/apache/nutch/2.2.1/解压2、修改数据存储方式是mysql 修改nutch....

分类：数据库时间：2014-09-12 13:25:43 阅读次数：406

【转】Nutch源代码研究网页抓取数据结构

今天我们看看Nutch网页抓取，所用的几种数据结构：主要涉及到了这几个类：FetchListEntry，Page，首先我们看看FetchListEntry类：public final class FetchListEntry implements Writable, Cloneable实现了Writ...

分类：Web程序时间：2014-08-22 15:59:58 阅读次数：242

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的，只是网址的跳转和递归等比较麻烦。耽误了好久，还是豆瓣好呀，URL那么的规范。唉，亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├──?amazon │??...

分类：编程语言时间：2014-08-22 05:03:45 阅读次数：3369

awk抓取数据

感觉awk判断语句像是乱序的，这一周学习awk总结grep "all_time" log/bn-as.log | head -4000 | grep -o baidu_id="[a-z|A-Z|0-9_]*"| awk -F '=' '{if($2 != "") print $2 >> "outpu...

分类：其他好文时间：2014-08-20 19:26:02 阅读次数：178

一个网站的诞生07-- Tornado Web Server

用Spider抓取数据，然后再做各种处理，然后放到web页面供大家使用。那么，就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架，Python也不例外，比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473...

分类：Web程序时间：2014-08-15 16:07:38 阅读次数：196

一个网站的诞生02--用Scrapy抓取数据

如果想抓数据，就需要有爬虫程序，业内叫crawler或者spider。有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助下写爬虫可以很快，几个小时就能写一个...

分类：Web程序时间：2014-08-04 17:37:47 阅读次数：285

经验总结21--抓取WEB数据，汇率，HtmlAgilityPack

网上找了很多资料，PHP的比较多，然后找到有csv文件的，处理起来很麻烦，国外的网站速度很慢。最后还是去页面上抓取数据，我是从中国银行抓取的，各位可去其他网站抓取。 1、模拟请求URL。 string url = "http://srh.bankofchina.com/search/whpj/search.jsp?pjname=1316"; HttpWebRequest reques...

分类：Web程序时间：2014-07-23 17:00:01 阅读次数：228

EasyUI datagrid 的checkbox设置

参考url: http://blog.csdn.net/baronyang/article/details/9323463我的需求: 抓取数据生成的日志,日志中有部分是抓取失败的,需要将失败的发送到另一个部分,但是成功了的就不需要发送; 设置checkbox: function formatCK.....

分类：其他好文时间：2014-07-22 22:42:13 阅读次数：246

Scrapy学习笔记

所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口...

分类：其他好文时间：2014-07-19 15:13:58 阅读次数：241

共386条上一页 1 ... 35 36 37 38 39 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)