如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。
大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、....
分类:
其他好文 时间:
2014-05-22 10:13:09
阅读次数:
370
简介
nutch是一个用java实现的网络爬虫,但却不仅仅是一个爬虫。它还囊括了网页分析,索引,搜索等功能,所白了,可以当做一个搜索引擎来用。nutch的意义在于,为普通开发人员提供了一扇研究搜索引擎的窗户,让搜索引擎不再神秘。而且,由于nutch的不断发展,对性能以及并行批处理的要求不断提供,h....
分类:
其他好文 时间:
2014-05-22 01:21:40
阅读次数:
258
我在编写一段pythn爬虫的时候遇到一个估计是编码的问题,可以怎么也解决不好。代码如下:#- * -
coding: UTF-8 -*-import urllib.requestimport rehtml =
urllib.request.urlopen("http://weibo.com/p/10...
分类:
编程语言 时间:
2014-05-22 00:59:35
阅读次数:
354
原文:简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。
大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交...
分类:
其他好文 时间:
2014-05-22 00:45:58
阅读次数:
468
一、JDBC基础JDBC是Java应用与数据库管理系统进行交互的标准API,包括两个包:核心API---java.sql和扩展的API---javax.sql。应用程序通过核心API的接口实现数据库连接和数据处理,其主要接口如下:接口名称功能java.sql.Driver驱动程序,连接应用程序和数据...
分类:
数据库 时间:
2014-05-21 19:28:55
阅读次数:
441
相信不少博主都习惯了各种爬虫,各种采集了吧。前些时间好像有个朋友在抱怨博客园怎么没有对我们知识结晶进行保护。其实采集就采集吧,不加作者信息也就算了,最可恶的是不保留作者信息。好吧,不扯蛋了,我们进入正题。我测试过多种方法,比如在开头加上隐藏的作者信息,或者原文链接等等方法。可是机器人也不是吃素的,现...
分类:
其他好文 时间:
2014-05-21 18:51:17
阅读次数:
267
JSP开发模式
jsp开发模式的发展
1.模式1:(适合小型项目的技术的开发)
a.第一版本,纯jsp(封装数据,处理数据,显示数据)
b.第二版本,Jsp+JavaBean.
jsp:收集数据,显示数据
JavaBean:封装、处理
2.模式2:servlet+Jsp+JavaBean(是mvc在java中的具体的实现,是java...
分类:
编程语言 时间:
2014-05-21 17:03:21
阅读次数:
406
使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。
有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备。
一句话产品介绍:...
分类:
其他好文 时间:
2014-05-21 16:37:02
阅读次数:
363
做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
那我们应该怎样使用robots.txt呢?
...
分类:
其他好文 时间:
2014-05-21 15:03:59
阅读次数:
190