var casper = require('casper').create({ verbose: true, logLevel: 'debug', pageSettings: { loadImages: false, loa...
分类:
Web程序 时间:
2014-09-28 15:10:22
阅读次数:
208
欢迎访问个人原创地址: http://www.phpthinking.com/archives/468
使用PHP的cURL库可以简单和有效地去抓网页。你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了。无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库。本文主要...
分类:
Web程序 时间:
2014-09-28 12:27:01
阅读次数:
317
抓取别人的数据包有几种办法,第一种是你和别人共同使用的那个交换机有镜像端口的功能,这样你就可以把交换机上任意一个人的数据端口做镜像,然后你在镜像端口上插根网线连到你的网卡上,你就可以抓取别人的数据了;第二种,把你们局域网的交换机换成一个集线器,这样的换所有的数据包都是通发的,也就是说,不管是谁的数据...
分类:
其他好文 时间:
2014-09-28 01:32:20
阅读次数:
209
耳机POI、chart 图表、地图排行榜--网页链接、优酷创收--每周抓取、小说,书籍、读书笔记纯CSS、地图应用、HFLS的计算方式(1)OpenStreetMap :官网、OSC简介(2)Pure:官网、中文版、中文版Git、OSC简介(3)那些网站:USPCAT、极客标签、慕课网、devsto...
分类:
其他好文 时间:
2014-09-27 13:59:39
阅读次数:
182
hibernate抓取策略fetch具体解释一、hibernate抓取策略(单端代理的批量抓取fetch=select(默认)/join)測试用例:Student student = (Student)session.get(Student.class, 1);System.out.println(...
分类:
系统相关 时间:
2014-09-26 22:58:28
阅读次数:
200
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点:能被google、百度等正规搜索引擎爬虫抓取,不限流量和并发数;阻止山寨爬虫的抓取;反爬虫策略应该是...
分类:
Web程序 时间:
2014-09-25 21:33:37
阅读次数:
327
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Mu...
分类:
编程语言 时间:
2014-09-25 19:37:17
阅读次数:
150
一、InfoPi是什么InfoPi是一个程序,它会自动抓取使用者感兴趣的信息,并通过Web的方式显示出来。截图1,汇总查看截图2,分类查看二、InfoPi运行在哪里InfoPi可以运行在树莓派上(下图的卡片式电脑)。树莓派待机功率1瓦多,很适合7x24不间断运行。InfoPi也可以运行在各种使用Wi...
分类:
其他好文 时间:
2014-09-25 12:01:38
阅读次数:
386
环境:python 2.7用自带的urllib,urllib2包可以实现大部分抓取功能。代码十分简短。关键在于正则表达式的建立和处理。 1 #coding=utf-8 2 ''' 3 Created on 2014-9-25 4 5 @author: Administrator 6 ''' 7 i....
分类:
编程语言 时间:
2014-09-25 11:29:58
阅读次数:
197
第一步:下载Firefox,安装Firebug进入测试网站,http://lol.duowan.com/hero/,打开Firebug,在一个英雄头像上点击右键 使用Firebug查看元素,在 一行右键点击复制HTML获得所有数据的信息。利用Xcode创建一个lol.html文件保存代码,打开文件....
分类:
编程语言 时间:
2014-09-24 21:47:47
阅读次数:
222