最近使用了Jsoup,感觉还是挺简单,挺方便的,轻而易举地使用java像jQuery一样操作html节点,轻松抓取网页源码,分析获取各个标签所需的东西。
对于采集网页类具有相当方便的作用
具体可看下面各个相关例子:
Jsoup下载地址:
http://jsoup.org/download
jsoup开发指南,jsoup中文使用手册,jsoup中文文档:
ht...
分类:
Web程序 时间:
2014-09-15 10:08:08
阅读次数:
220
Weka算法Classifier-meta-Bagging源码分析...
分类:
其他好文 时间:
2014-09-14 20:49:17
阅读次数:
480
Erlang:RabbitMQ源码分析 4. file_handle_cache实现分析...
分类:
其他好文 时间:
2014-09-14 11:24:57
阅读次数:
196
Netty3 源码分析 - ChannelUpstreamHandler
ChannelUpstreamHandler处理上行的通道事件,并且在流水线中传送事件。这个接口最常用的场景是拦截IO工作现场产生的事件,传输消息或者执行相关的业务逻辑。在大部分情况下,我们是使用SimpleChannelUpstreamHandler 来实现一个具体的upstream ha...
分类:
Web程序 时间:
2014-09-13 22:54:15
阅读次数:
940
Netty3 源码分析 - ChannelFuture
ChannelFuture抽象的是Channel中异步IO操作的结果。在Netty中,所有的IO操作是异步的,意味着任何IO调用会立刻返回,而不是等到操作真正的执行完成。相反,会返回一个ChannelFuture 对象,在IO完成之后通过其得到结果状态。ChannelFuture 要么完成要么未完成,当IO操作开始执行会创建一个新的...
分类:
Web程序 时间:
2014-09-13 21:33:05
阅读次数:
447
gevent core就是封装了libev,使用了cython的语法,感兴趣童鞋可以好好研究研究。其实libev是有python的封装pyev(https://pythonhosted.org/pyev/),不过pyev是使用C来写扩展的,代码巨复杂。在看core.pyx代码之前先学习一下core.pyx用到的cython知识。一: cython基础知识1.cdef, def, cpdef的区别 ...
分类:
其他好文 时间:
2014-09-13 20:09:35
阅读次数:
354
FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法。与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上,面对大数据量时,FP-Growth算法生成.....
分类:
其他好文 时间:
2014-09-13 15:46:05
阅读次数:
406
Netty是基于流的消息传递机制。Netty框架中,所有消息的传输都依赖于ByteBuf接口,ByteBuf是Netty NIO框架中的缓冲区。ByteBuf接口可以理解为一般的Byte数组,不过Netty对Byte进行了封装,增加了一些实用的方法。...
分类:
Web程序 时间:
2014-09-13 12:11:05
阅读次数:
421
在上文Docker源码分析之——Docker Daemon启动 中,介绍了Docker Daemon进程的启动。Docker Daemon可以认为是一个Docker作为Server的运行载体,而真正发送关于docker container操作的请求的载体,在于Docker Client。本文从Docker源码的角度,分析Docker Client启动与执行请求的过程。...
分类:
其他好文 时间:
2014-09-12 20:45:54
阅读次数:
251