最简单的爬虫,不需要设定代理服务器,不需要设定cookie,不需要http连接池,使用httpget方法,只是为了获取html代码...好吧,满足这个要求的爬虫应该是最基本的爬虫了。当然这也是做复杂的爬虫的基础。使用的是httpclient4的相关API。不要跟我讲网上好多都是httpclient3...
分类:
编程语言 时间:
2014-07-09 20:49:07
阅读次数:
299
你是否苦恼于网上无法下载的“小说在线阅读”内容?或是某些文章的内容让你很有收藏的冲动,却找不到一个下载的链接?是不是有种自己写个程序把全部搞定的冲动?是不是学了 python,想要找点东西大展拳脚,告诉别人“哥可是很牛逼的!”?那就让我们开始吧! 哈哈
好吧,我就是最近写 Yii 写多了,想找点东西调剂一下.... = =
本项目以研究为目的,所有版权问题我们都是站在作者的一边,以看盗版小说为目的的读者们请自行面壁!
说了这么多,我们要做的就是把小说正文的内容从网页上爬下来,我们的...
分类:
编程语言 时间:
2014-07-08 19:53:59
阅读次数:
311
写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作。由于.NET BCL只提供了"底层"的HttpWebRequest和"中层"的WebClient,故对HTTP操作还是需要编写很多代码的。加上编写C#需要使用Visual Studio这个很"重"的工具,开...
分类:
Web程序 时间:
2014-07-06 20:03:05
阅读次数:
346
一、 在SAS中进行随机抽样:1、 在实际数据处理中常常需要进行样本抽样,在实践中主要有两种情况:(1)简单无重复抽样(2)分层抽样 a.等比例分层抽样b. 不等比例分层抽样;2、SAS 中可以利用PROC suveryselect 过程实现各种抽样:其一般形式是: PROC SURVEYSELE....
分类:
其他好文 时间:
2014-07-06 19:07:23
阅读次数:
373
水题,随手敲过
一看就是最短路问题,a,b演同一场电影则他们的距离为1
默认所有两两原始距离无穷,到自身为0
输入所有数据处理后floyd
然后照它说的求平均分离度
再找最小的,×100取整输出
#include
#include
#include
using namespace std;
int cownum,filmnum;
int film[11111][333];
int...
分类:
其他好文 时间:
2014-07-06 10:52:47
阅读次数:
203
最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去。但感觉一篇一篇的看实在是麻烦死了。想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选。不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的。
先把完整的代码贴上来,如果朋友们需要试验下,请...
分类:
编程语言 时间:
2014-07-06 10:11:48
阅读次数:
325
package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;impor...
分类:
Web程序 时间:
2014-07-05 18:52:01
阅读次数:
266
一、什么是Oracle
在学习DRP系统之前,很多次提到过Oracle,也了解过,那么Oracle是什么?今天我终于揭开了它的神秘面纱。
Oracle:是一个公司,当然我在这里说的是Oracle数据库,与之前学到的SQLserver一样,都是一种关系型数据库管理系统。由于Oracle对大型的数据处理快速,所以称之为企业级数据库,而SQLserver是中小型的数...
分类:
数据库 时间:
2014-07-03 18:01:38
阅读次数:
295
Coprocessor是HBase 0.92.0引入的特性。使用Coprocessor,可以将一些计算逻辑下推到HBase节点,HBase由一个单纯的存储系统升级为分布式数据处理平台。
Coprocessor分为两种:Observer和Endpoint。Observer能修改扩展已有的客户端操作功能,而Endpoint能引入新的客户端操作。
Observer
Observer的作用类似于数据...
分类:
其他好文 时间:
2014-07-03 15:35:50
阅读次数:
247