WebElement
接口常用方法:size,text,get_attribute(),is_displayed()
分类:
其他好文 时间:
2014-06-03 07:28:05
阅读次数:
188
.Net中也有很多很多开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是https://code.google.com/p/abot/对于爬取的Html,使用的分析工具是CsQuery,
CsQuery可以算是.net中实现的Jquery, ...
分类:
Web程序 时间:
2014-05-31 20:50:25
阅读次数:
388
(一)搜索引擎的开发一般可分为下面三大部分1、数据採集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个站点的首页...
分类:
其他好文 时间:
2014-05-31 20:04:37
阅读次数:
263
准备在端午节期间做一个网络爬虫。using System;using
System.Text;using System.Net;using System.IO;namespace ConsoleApplication1{
class Program { static voi...
分类:
其他好文 时间:
2014-05-31 14:24:36
阅读次数:
206
因为工作需要,用nodejs写了个简单的爬虫例子,之前也没用过nodejs,连搭环境加写大概用了5天左右,so。。。要多简陋有多简陋,放这里给以后的自己看~~
整体需求是:给一个有效的URL地址,返回该网页上所有无效链接的百分比(坏链率) 第一个文件:计算环链率 urlSpider.js ...
分类:
Web程序 时间:
2014-05-31 11:28:26
阅读次数:
564
首先要感谢一下“虫师”的教程(“http://fnng.cnblogs.com”),讲解的很细致,让我这个第一次接触selenium的菜鸟成功的完成环境的搭建(当然是连带场外支援)和教程中的第一个脚本。
1.环境搭建的波折经历 firstly,python的安装,包括python.org、setu....
分类:
编程语言 时间:
2014-05-31 06:22:26
阅读次数:
323
今天来做一个PHP电影小爬虫。我们来利用simple_html_dom的采集数据实例,这是一个PHP的库,上手很容易。simple_html_dom
可以很好的帮助我们利用php解析html文档。通过这个php封装类可以很方便的解析html文档,对其中的html元素进行操作 (PHP5+以上版本)
分类:
Web程序 时间:
2014-05-30 09:27:39
阅读次数:
303
最近看了些node.js方面的知识,就像拿它来做些什么。因为自己喜欢摄影,经常上蜂鸟网,所以寻思了一下,干脆做个简单的爬虫来扒论坛的帖子。直接上代码吧。 1
var sys = require("sys"), 2 http = require("http"), 3 fs = requ...
分类:
Web程序 时间:
2014-05-28 18:48:15
阅读次数:
360