import urllib.request url = 'http://www.baidu.com/' response = urllib.request.urlopen(url) data = response.read() str_data = data.decode('utf_8') # pr... ...
分类:
Web程序 时间:
2018-11-08 18:21:58
阅读次数:
188
chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。 from ...
分类:
编程语言 时间:
2018-10-25 17:09:23
阅读次数:
169
# 使用进程池的进程爬取网页内容,使用回调函数处理数据,用到了正则表达式和re模块 import re from urllib.request import urlopen from multiprocessing import Pool def get_page(url,pattern): res... ...
分类:
系统相关 时间:
2018-10-23 22:58:32
阅读次数:
168
主流的方式是 phpQuery 今天使用了 QueryList,是在PHPQuery的基础上进行了封装,现在最新的版本是4.0,但是要求PHP>7.0。就用了旧版的3.0 3.0文档:https://v3.querylist.cc/ 4.0文档:https://doc.querylist.cc/si ...
分类:
Web程序 时间:
2018-10-10 17:11:07
阅读次数:
220
使用 selenium + phantomjs 实现 1、准备环境 selenium(一个用于web应用程测试的工具)安装:pip install seleniumphantomjs(是一种无界面的浏览器,用于完成网页的渲染)下载:http://phantomjs.org/download.html ...
分类:
编程语言 时间:
2018-09-28 16:38:31
阅读次数:
174
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据。后来发现基础知识掌握的并不是很牢固。便去借了一本Python基础和两本爬虫框架的书。便开始了自己的入坑之旅 言归正传 前期准备 Import requests;我们需要引入这个包。但是有些用户环境并不具备这个包 ...
分类:
编程语言 时间:
2018-09-20 01:05:40
阅读次数:
240
demo2: 推荐使用:Jupyter Notebook 做练习,很方便。 ...
分类:
编程语言 时间:
2018-09-15 12:21:57
阅读次数:
200
最近在写爬虫的时候发现利用beautifulsoup解析网页html 利用解析结果片段为: <td valign="top"><div class="pl2"><a class="" href="https://movie.douban.com/subject/26588308/"> 死侍2 / < ...
分类:
编程语言 时间:
2018-08-29 19:57:30
阅读次数:
168
下面以爬取360浏览器网页为例,代码具有通用性,改变网页路径即可 代码如下 package 爬取网页; import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileOutputStream;import ...
分类:
Web程序 时间:
2018-08-13 19:45:35
阅读次数:
226