码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
几款整站抓取的工具
TeleportUltraTeleport Ultra所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你指定的时间自动登录到你指定的网站下载你指定的内容,你还可以用它来创建某个网站的完整的镜象...
分类:其他好文   时间:2014-08-05 22:14:50    阅读次数:255
Beautifulsoup学习笔记
1.导入beautifulsoupfrom BeautifulSoup import BeautifulSoup 2.实例化一个soup对象html=""soup = BeautifulSoup(html)html的字符串可以通过打开本地文件或者抓取网络的html来得到测试用的html是:3.bea...
分类:其他好文   时间:2014-08-05 18:53:19    阅读次数:281
oncopy和onpaste
在Javascript中,有对应的事件能够监听复制和粘贴,那就是oncopy和onpaste。 oncopy:demo: 你能复制我吗?使用场景:非常多站点上的页面内容是不同意复制的,这样能够防止用户或者程序恶意的去抓取页面数据。曾经的起点阅读小说时,就是不同意复制内容,如今更狠,把左键选...
分类:其他好文   时间:2014-08-05 10:58:49    阅读次数:166
【python】自动登录51cto家园
自动登录:http://home.51cto.com1、分析:使用httpfox抓取手动登录home.51cto.com的过程,过程如下:点登录,提交用户名与密码到http://home.51cto.com/index.php?s=/Index/doLogin这个地址,正确后,他会返回的内容包含很多链接,如第二个图片。然后分别get这些链接。请求完..
分类:编程语言   时间:2014-08-05 03:07:59    阅读次数:319
11223
通过URL去访问另一台计算机1、理解URL : HTTP协议的URL文件中的URL2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java 语言是为网...
分类:其他好文   时间:2014-08-05 00:32:18    阅读次数:384
一个网站的诞生02--用Scrapy抓取数据
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。 有各种语言版本的开源爬虫,c++, Java,  php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。 爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:Web程序   时间:2014-08-04 17:37:47    阅读次数:285
asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
无论你用什么语言,正则表达式的处理方法都是非常灵活、高效的,尤其是对某些字符串的抓取、过滤方面,更显其优势。正则表达式的写法通常比较简单,几行短代码便能轻松完成看似很复杂的事情,更值得称赞的是,它的执行效率非常高,运行速度相当快。因此我在项目的开发中,通常把正则表达式作为处理问题的首选方法。正则表达...
分类:Web程序   时间:2014-08-04 17:03:57    阅读次数:295
抓取dump
1,在程序奔溃前部署。adplus.exe -crash -pn explorer.exe -o d:-crash:当进程挂掉的时候抓取dump,只能抓取到进程报错时的信息,如果进程不报错,就无法抓取到dump-hang:当开启windbugu之后就开始抓取dump,主要用于抓取进程异常,但进程未崩...
分类:其他好文   时间:2014-08-04 14:04:27    阅读次数:259
网页抓取
###-*-coding:cp936-*-###<ahref="http://home.51cto.com"target="_blank">家园</a>##importurllib##str0=‘<ahref="http://home.51cto.com"target="_blank">家园</a>‘##href=str0.find(‘<ahref‘)##printhref##com=str0.find(‘.com"‘)##printcom##ur..
分类:Web程序   时间:2014-08-04 08:21:17    阅读次数:263
Python实例 -- 爬虫
1 #coding="utf-8" 2 3 import urllib2 4 import re 5 import threading 6 import time 7 8 """ 9 抓取代理发布页的ip和port10 http://www.xici.net.co/nn/%d11 """12 ...
分类:编程语言   时间:2014-08-04 02:00:36    阅读次数:313
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!