码迷,mamicode.com
首页 >  
搜索关键字:selenium 爬虫    ( 16232个结果
Java爬虫
1.昨天复习了Java基础(I/O流)和正则表达式 今天不讲Java中的 I/O 主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import java.io.BufferedReader; 4 import java.io.IO....
分类:编程语言   时间:2014-05-29 05:11:03    阅读次数:404
全面拥抱移动测试,Mobile JSON Wire Protocol Specification文档翻译
Selenium3已经宣布不支持移动化测试。对于老牌测试工具selenium来说这是以退为进,因为移动自动化测试工具的标准还在selenium团队手上。本文轻度翻译了这个标准,看得懂的人不用翻译也能看懂,看不懂的人翻的天花乱坠也是一头雾水。注意,这个规格是给工具的开发者定义的条条框框,对于使用者来说...
分类:移动开发   时间:2014-05-27 18:00:01    阅读次数:463
网络爬虫(网络蜘蛛)之网页抓取
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:Web程序   时间:2014-05-26 05:54:50    阅读次数:393
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》 (2)【搜索引擎基础知识1】搜索引擎的技术架构  (3)【搜索引擎基础知识2】网络爬虫的介绍 1、...
分类:其他好文   时间:2014-05-26 05:45:24    阅读次数:266
【搜索引擎基础知识2】网络爬虫
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。 1. 网络爬虫本质就是浏览器http请求。      浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:       1)首先, 客户端程序连接到域名系统...
分类:其他好文   时间:2014-05-26 05:26:52    阅读次数:358
Selenium Webdriver 学习总结-Selenium Grid & Webdriver(九)
本文简要概括如何使用Selenium Grid分布式执行测试,详细讲解了如何配置Hub/Node,以及如何在脚本中应用配置...
分类:Web程序   时间:2014-05-26 04:44:03    阅读次数:356
Python]网络爬虫
Originated From:http://blog.csdn.net/pi9nc/article/details/9734437#comments[Python]网络爬虫(一):抓取网页的含义和URL基本构成一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一...
分类:编程语言   时间:2014-05-25 23:58:31    阅读次数:584
python实现图片爬虫
#encoding:utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') from sgmllib import SGMLParser import re import urllib class URLLister(SGMLParser): def start_a(self, attrs): url = [v ...
分类:编程语言   时间:2014-05-25 22:47:56    阅读次数:340
python3简单爬虫
最近在抽空学了一下python,于量就拿爬是练了下手,不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。#test rdpimport urllib.requestimport re#登录用的帐户信息d...
分类:编程语言   时间:2014-05-25 22:07:34    阅读次数:449
【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为以下三大部分 1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi 2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene 3、视图层:也用户的交互界面,如一个网站的首页 其基本架构可参考下图:...
分类:其他好文   时间:2014-05-24 22:20:16    阅读次数:349
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!