搜索关键字：爬取网页，搜索到219个结果！码迷,mamicode.com！

java爬取网页数据

最近使用java实现了一个简单的网页数据抓取，下面是实现原理及实现代码: 原理：使用java.net下面的URL对象获取一个链接，下载目标网页的源代码，利用jsoup解析源代码中的数据，获取你想要的内容 1.首先是根据网址下载源代码： 2.根据下载源代码解析数据，获取你想要的内容，这里我获取的是图片 ...

分类：编程语言时间：2018-03-31 00:52:01 阅读次数：182

爬虫2

爬取网页的通用代码框架理解requests库的异常：示例：结果： ...

分类：其他好文时间：2018-03-27 21:57:50 阅读次数：116

9、使用selenium + phantomjs 模拟浏览器登录网站

''' Selenium 模拟浏览器爬取网页信息一种是真实的浏览器，也即是在程序调用浏览器时，会打开相应的浏览器来显示，如：chrome,ie,safari,firefox 一种是伪浏览器，没有浏览器界面，只负责处理html,js和cookie的功能。如：htmlunit,phantomjs ...

分类：Web程序时间：2018-03-23 15:18:36 阅读次数：224

8、简单的多线程爬取网页数据并通过xpath解析存到本地

# Author:toloy # 导入队列包 import queue # 导入线程包 import threading # 导入json处理包 import json # 导入xpath处理包 from lxml import etree # 导入请求处理包 import requests cla ...

分类：编程语言时间：2018-03-22 19:13:34 阅读次数：163

03：requests与BeautifulSoup结合爬取网页数据应用

1.1 爬虫相关模块命令回顾 1、requests模块 1、 pip install requests 2、 response = requests.get('http://www.baidu.com/ ') #获取指定url的网页内容 3、 response.text #获取文本文件 4、 res ...

分类：Web程序时间：2018-03-11 14:44:52 阅读次数：433

Fiddler工具使用（一）

1.什么是Fiddler Fiddler是一种常见的抓包分析软件，可以利用Fiddler对HTTP请求进行分，还可以模拟HTTP请求。常见的抓包软件：浏览器自带的调试工具，按F12；Wireshark。 2.网络爬虫和Fiddler的关系网络爬虫是自动爬取网页的程序，在爬取时涉及客户端和服务器之 ...

分类：其他好文时间：2018-03-10 19:32:19 阅读次数：540

Python爬虫系列：判断目标网页编码的几种方法

在爬取网页内容时，了解目标网站所用编码是非常重要的，本文介绍几种常用的方法，并使用几个网站进行简单测试。代码运行结果：从不同国家的几个网站测试结果来看，utf8使用的较多（对于纯英文网站，用什么方式解码没有本质区别）。但方法3和4成功率更高一些，不过速度略慢，比较好的方法是组合使用这几个方法，结 ...

分类：编程语言时间：2018-03-09 12:36:46 阅读次数：244

Shell 命令 curl 和 wget 使用代理采集网页的总结大全

Linux Shell 提供两个非常实用的命令来爬取网页，它们分别是 curl 和 wget 米扑代理，作为大数据分析研究的基础服务，对其做了深入的研究和总结。 curl 和 wget 使用代理 curl 支持 http、https、socks4、socks5 wget 支持 http、https ...

分类：Web程序时间：2018-03-01 23:31:42 阅读次数：346

python3下scrapy爬虫(第八卷:循环爬取网页多页数据）

之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律，现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里（因为刚才写这篇文章时电脑出现点问题所以没存下来，所以这一版本不会那么详细）来看下结果522*35条连接页面 ...

分类：编程语言时间：2018-02-01 13:20:44 阅读次数：152

chromedriver禁用图片，禁用js，切换UA

selenium 模拟chrome浏览器，此时就是一个真实的浏览器，一个浏览器该加载的该渲染的它都加载都渲染，所以爬取网页的速度很慢。如果可以不加载图片等操作，网页加载速度就会快不少，代码中列出了了禁用图片，禁用JS，切换UA的方法。 from selenium import webdriver f... ...

分类：Web程序时间：2018-01-31 11:32:08 阅读次数：254

共219条上一页 1 ... 9 10 11 12 13 ... 22 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)