开发文本编辑器可以用 sublime text
ftp客户端可以用 filezilla
远程连接ssh等用 xmanager(推荐,内带xftp,比较方便) sercureCRT也可以
写日志,记录平时网上看到的可以用evernote(在chrome和firefox中有剪藏的插件,非常方便)
抓取数据包用wireshark
抓取本地web访问可以用httpwatch
扫描端口那些还...
分类:
其他好文 时间:
2014-10-23 17:45:09
阅读次数:
256
最近做了一个从网络上抓取数据的一个小程序。主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中。也找了一些资料,觉得没有一个很好的,全面的例子。因此在这里做个笔记提醒自己。首先需要一个jsoup的jar包,我用的1.6.0。。下载地址为:http://pan.baidu.com/s/1...
分类:
编程语言 时间:
2014-10-20 19:01:04
阅读次数:
255
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:
编程语言 时间:
2014-10-17 02:11:54
阅读次数:
306
需求:客户的数据同时存在在另外一个不可控的系统中,需要和当前系统同步。思路:自动登录另外一个系统,然后抓取数据,同步到本系统中。技术点:模拟用户登录;保存登录状态;抓取数据/// /// visit the target url /// /// ...
说起爬虫你一定想起:Scrapy,没用过这个东西,不过从Google,看起来很专业的,由于工作需要,偶尔也会从网上抓取一些数据,之前用的是beautifulsoup,我这个人其实也有点强迫症,一定要知道范围,优劣,那么问题来了?两个东西的范围是什么?以及那个更好?直接Google你可以得到答案原来是...
分类:
编程语言 时间:
2014-10-15 13:11:10
阅读次数:
164
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本
需要 BeautifulSoup 和 requests 两个库
(我已经把注释写得尽量详细)
这个程序的执行速度很慢,求高手告诉我优化的方法!!
#-*-coding:utf8-*-
from...
分类:
编程语言 时间:
2014-10-14 15:47:19
阅读次数:
227
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫...
分类:
编程语言 时间:
2014-10-11 22:03:36
阅读次数:
344
1.[代码]最基本的抓站 ?12import urllib2content = urllib2.urlopen('http://XXXX').read()2.[代码]使用代理服务器 ?12345import urllib2proxy_support = urllib2.ProxyHandler({'...
分类:
编程语言 时间:
2014-10-10 19:32:24
阅读次数:
226