码迷,mamicode.com
首页 >  
搜索关键字:爬取网页    ( 219个结果
java爬取网页数据
最近使用java实现了一个简单的网页数据抓取,下面是实现原理及实现代码: 原理:使用java.net下面的URL对象获取一个链接,下载目标网页的源代码,利用jsoup解析源代码中的数据,获取你想要的内容 1.首先是根据网址下载源代码: 2.根据下载源代码解析数据,获取你想要的内容,这里我获取的是图片 ...
分类:编程语言   时间:2018-03-31 00:52:01    阅读次数:182
爬虫2
爬取网页的通用代码框架 理解requests库的异常: 示例: 结果: ...
分类:其他好文   时间:2018-03-27 21:57:50    阅读次数:116
9、使用selenium + phantomjs 模拟浏览器登录网站
''' Selenium 模拟浏览器爬取网页信息 一种是真实的浏览器,也即是在程序调用浏览器时,会打开相应的浏览器来显示, 如:chrome,ie,safari,firefox 一种是伪浏览器,没有浏览器界面,只负责处理html,js和cookie的功能。 如:htmlunit,phantomjs ...
分类:Web程序   时间:2018-03-23 15:18:36    阅读次数:224
8、简单的多线程爬取网页数据 并通过xpath解析存到本地
# Author:toloy # 导入队列包 import queue # 导入线程包 import threading # 导入json处理包 import json # 导入xpath处理包 from lxml import etree # 导入请求处理包 import requests cla ...
分类:编程语言   时间:2018-03-22 19:13:34    阅读次数:163
03:requests与BeautifulSoup结合爬取网页数据应用
1.1 爬虫相关模块命令回顾 1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text #获取文本文件 4、 res ...
分类:Web程序   时间:2018-03-11 14:44:52    阅读次数:433
Fiddler工具使用(一)
1.什么是Fiddler Fiddler是一种常见的抓包分析软件,可以利用Fiddler对HTTP请求进行分,还可以模拟HTTP请求。 常见的抓包软件:浏览器自带的调试工具,按F12;Wireshark。 2.网络爬虫和Fiddler的关系 网络爬虫是自动爬取网页的程序,在爬取时涉及客户端和服务器之 ...
分类:其他好文   时间:2018-03-10 19:32:19    阅读次数:540
Python爬虫系列:判断目标网页编码的几种方法
在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。 代码运行结果: 从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结 ...
分类:编程语言   时间:2018-03-09 12:36:46    阅读次数:244
Shell 命令 curl 和 wget 使用代理采集网页的总结大全
Linux Shell 提供两个非常实用的命令来爬取网页,它们分别是 curl 和 wget 米扑代理,作为大数据分析研究的基础服务,对其做了深入的研究和总结。 curl 和 wget 使用代理 curl 支持 http、https、socks4、socks5 wget 支持 http、https ...
分类:Web程序   时间:2018-03-01 23:31:42    阅读次数:346
python3下scrapy爬虫(第八卷:循环爬取网页多页数据)
之前我们做的数据爬取都是单页的现在我们来讲讲多页的 一般方式有两种目标URL循环抓取 另一种在主页连接上找规律,现在我用的案例网址就是 通过点击下一页的方式获取多页资源 话不多说全在代码里(因为刚才写这篇文章时电脑出现点问题所以没存下来,所以这一版本不会那么详细) 来 看下结果522*35条连接页面 ...
分类:编程语言   时间:2018-02-01 13:20:44    阅读次数:152
chromedriver禁用图片,禁用js,切换UA
selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。 from selenium import webdriver f... ...
分类:Web程序   时间:2018-01-31 11:32:08    阅读次数:254
219条   上一页 1 ... 9 10 11 12 13 ... 22 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!