码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
HQueue:基于HBase的消息队列
HQueue:基于HBase的消息队列凌柏?1. HQueue简介HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据,借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储,并基于HBase ...
分类:其他好文   时间:2014-07-24 22:31:52    阅读次数:290
经验总结21--抓取WEB数据,汇率,HtmlAgilityPack
网上找了很多资料,PHP的比较多,然后找到有csv文件的,处理起来很麻烦,国外的网站速度很慢。 最后还是去页面上抓取数据,我是从中国银行抓取的,各位可去其他网站抓取。 1、模拟请求URL。 string url = "http://srh.bankofchina.com/search/whpj/search.jsp?pjname=1316"; HttpWebRequest reques...
分类:Web程序   时间:2014-07-23 17:00:01    阅读次数:228
atitit.查看预编译sql问号 本质and原理and查看原生sql语句
atitit.查看预编译sql问号 本质and原理and查看原生sql语句   1. 预编译原理. 1 2. preparedStatement 有三大优点: 1 3. How to look  gene  sql 2 1. Hb cfg all debug ,cant see... 2 2. WSExplorer按照进程抓取pack可以看见.. 2 3. Mysql 5.6 开放日...
分类:数据库   时间:2014-07-23 13:37:40    阅读次数:359
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE)为intelij 13.1,Jar包管理工具为Maven,不习惯用intelij的同学,...
分类:编程语言   时间:2014-07-23 11:59:36    阅读次数:627
atitit.获取北京时间CST 功能api总结 O7
atitit.获取北京时间CST 功能api总结 O7   1. 获取cst时间(北京时间)两布:1.抓取url timtstamp >>format 到cst 1 2. 设置本机时间  setSystime(date);:调用的命令行,只能支持windows和linux系统 2 3. 留意:  1582年10月5日—1582年10月14日。是不存在的.. 2 4. 克拉维斯...
分类:Windows程序   时间:2014-07-23 00:08:37    阅读次数:520
用python做网页抓取与解析入门笔记[zz]
(fromhttp://chentingpc.me/article/?id=961)事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看...
分类:编程语言   时间:2014-07-22 23:09:52    阅读次数:263
python实现简单爬虫(二)---- 使用urllib等python模块
之前使用scrapy实现了一个超级简单的爬虫工具,用于抓取豆瓣上面所有的编程书籍信息(由于不需要爬取整个页面的所以链接,所以不需要用到BFS or DFS,只实现顺序抓取下一页) 这次使用的是python自带的urllib 和urllib2等python模块实现,同样以豆瓣上面的爱情电影信息作...
分类:编程语言   时间:2014-07-22 22:47:35    阅读次数:347
EasyUI datagrid 的checkbox设置
参考url: http://blog.csdn.net/baronyang/article/details/9323463我的需求: 抓取数据生成的日志,日志中有部分是抓取失败的,需要将失败的发送到另一个部分,但是成功了的就不需要发送; 设置checkbox: function formatCK.....
分类:其他好文   时间:2014-07-22 22:42:13    阅读次数:246
利用浏览器控件解决数据抓取的登录登录
1:浏览器登录网址,进行登录,进入系统2:获取浏览器的cookie信息,用程序开始进行数据的抓取。遇到的问题是怎么把浏览器的cookie信息读取出来,可以使用InternetGetCookieEx这个Win API来取得httponly的Cookie信息。代码如下: 1 [DllIm...
分类:其他好文   时间:2014-07-22 00:04:34    阅读次数:191
pyqt学习总结
一、学习来由: 最近一段时间,应朋友的需要,完成一款抓取软件。一般而言,python是我比较熟悉的语言,又有丰富的抓取和解析模块,所以果断选择之。 而这远远不是重点,后台程序在工作做经常写,所以比较熟悉,完成了多线程mini_crawler之后,接下来就是要开发可视化的界面,将功能包装成友好的工具。 真正的探索刚刚开始。 在探索过程中,发现很多问题。首先是GUI工具的选择。关于这方面的介绍...
分类:其他好文   时间:2014-07-21 23:44:43    阅读次数:324
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!