一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE)为intelij 13.1,Jar包管理工具为Maven,不习惯用intelij的同学,...
分类:
编程语言 时间:
2014-07-23 11:59:36
阅读次数:
627
之前使用scrapy实现了一个超级简单的爬虫工具,用于抓取豆瓣上面所有的编程书籍信息(由于不需要爬取整个页面的所以链接,所以不需要用到BFS or DFS,只实现顺序抓取下一页) 这次使用的是python自带的urllib 和urllib2等python模块实现,同样以豆瓣上面的爱情电影信息作...
分类:
编程语言 时间:
2014-07-22 22:47:35
阅读次数:
347
进来一直停留在基础理论知识的学习中,觉得太乏味,就写了一个网页自动化的demo:自动写日报。省的以后自己打开网页写啦。
直接上代码:
自动填写日报DEMO
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFound...
分类:
其他好文 时间:
2014-07-22 17:59:31
阅读次数:
238
安装sikuli,安装完成之后,安装目录在C:\Program Files,将 安装文件复制到c盘下 配置环境变量 安装eclipse,将selenium的java版本的jar包,添加到你是使用的工程里面 在sikuli-ide下面有一个sikuli_script.jar,将...
为了防止无良网站的爬虫抓取文章,特此标识,转载请注明文章出处。LaplaceDemon/SJQ。http://www.cnblogs.com/shijiaqi1066/p/3858050.html1 事务(Transaction)概述1.1 数据库事务的四个特性:ACID原子性(Atomicity)...
分类:
数据库 时间:
2014-07-22 00:31:37
阅读次数:
297
转自http://www.voidspace.org.uk/python/articles/authentication.shtml先转来,由于是python2的版本之后会翻译文章以及移植到python3IntroductionThis tutorial aims to explain and il...
分类:
编程语言 时间:
2014-07-22 00:18:35
阅读次数:
588
在实际工作中,数据的来源不能局限于自家的数据库或者成型的后台,在做某些市场分析或是竞争对手开服节奏分析的情况下,对竞争对手数据的获得显得更为至关重要,本文就以获取某大平台开服数据作为一个案例,简要的介绍另一种获取数据的方法,网络爬虫技术。何为网络爬虫,爬虫是一个自动提取网页的程序,为搜索引擎在万维网...
分类:
其他好文 时间:
2014-07-21 14:25:25
阅读次数:
222
#!/usr/bin/env python# -*- coding: utf-8 -*-import sys,reimport urllib.request,urllib.parse,http.cookiejarclass myW3(): def login(self): 'post 数据' dat...
分类:
编程语言 时间:
2014-07-21 08:22:06
阅读次数:
354
网页爬虫importjava.net.*;
importjava.io.*;
importjava.util.regex.*;
classfindMail
{
publicstaticvoidmain(String[]args)throwsException
{
//读取流关联文件
//BufferedReaderbin=newBufferedReader(newFileReader("mail.txt"));
//获取网页上的数据需要获取输入..
分类:
Web程序 时间:
2014-07-20 15:16:41
阅读次数:
217
CrawlSpider-爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。...
分类:
其他好文 时间:
2014-07-20 10:18:09
阅读次数:
225