TeleportUltraTeleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象...
分类:
其他好文 时间:
2014-08-05 22:14:50
阅读次数:
255
1.导入beautifulsoupfrom BeautifulSoup import BeautifulSoup 2.实例化一个soup对象html=""soup = BeautifulSoup(html)html的字符串可以通过打开本地文件或者抓取网络的html来得到测试用的html是:3.bea...
分类:
其他好文 时间:
2014-08-05 18:53:19
阅读次数:
281
在Javascript中,有对应的事件能够监听复制和粘贴,那就是oncopy和onpaste。 oncopy:demo: 你能复制我吗?使用场景:非常多站点上的页面内容是不同意复制的,这样能够防止用户或者程序恶意的去抓取页面数据。曾经的起点阅读小说时,就是不同意复制内容,如今更狠,把左键选...
分类:
其他好文 时间:
2014-08-05 10:58:49
阅读次数:
166
自动登录:http://home.51cto.com1、分析:使用httpfox抓取手动登录home.51cto.com的过程,过程如下:点登录,提交用户名与密码到http://home.51cto.com/index.php?s=/Index/doLogin这个地址,正确后,他会返回的内容包含很多链接,如第二个图片。然后分别get这些链接。请求完..
分类:
编程语言 时间:
2014-08-05 03:07:59
阅读次数:
319
通过URL去访问另一台计算机1、理解URL : HTTP协议的URL文件中的URL2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java 语言是为网...
分类:
其他好文 时间:
2014-08-05 00:32:18
阅读次数:
384
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。
有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。
爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:
Web程序 时间:
2014-08-04 17:37:47
阅读次数:
285
无论你用什么语言,正则表达式的处理方法都是非常灵活、高效的,尤其是对某些字符串的抓取、过滤方面,更显其优势。正则表达式的写法通常比较简单,几行短代码便能轻松完成看似很复杂的事情,更值得称赞的是,它的执行效率非常高,运行速度相当快。因此我在项目的开发中,通常把正则表达式作为处理问题的首选方法。正则表达...
分类:
Web程序 时间:
2014-08-04 17:03:57
阅读次数:
295
1,在程序奔溃前部署。adplus.exe -crash -pn explorer.exe -o d:-crash:当进程挂掉的时候抓取dump,只能抓取到进程报错时的信息,如果进程不报错,就无法抓取到dump-hang:当开启windbugu之后就开始抓取dump,主要用于抓取进程异常,但进程未崩...
分类:
其他好文 时间:
2014-08-04 14:04:27
阅读次数:
259
###-*-coding:cp936-*-###<ahref="http://home.51cto.com"target="_blank">家园</a>##importurllib##str0=‘<ahref="http://home.51cto.com"target="_blank">家园</a>‘##href=str0.find(‘<ahref‘)##printhref##com=str0.find(‘.com"‘)##printcom##ur..
分类:
Web程序 时间:
2014-08-04 08:21:17
阅读次数:
263
1 #coding="utf-8" 2 3 import urllib2 4 import re 5 import threading 6 import time 7 8 """ 9 抓取代理发布页的ip和port10 http://www.xici.net.co/nn/%d11 """12 ...
分类:
编程语言 时间:
2014-08-04 02:00:36
阅读次数:
313