爬虫从 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,网页会经过渲染处理。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。那么,通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Web ki... ...
分类:
编程语言 时间:
2019-02-13 09:29:36
阅读次数:
305
1.环境及版本 python3.7.1+scrapy1.5.1 2.问题及错误代码详情 优先贴上问题代码,如下: 运行代码后报错如下: 出现错误后自检代码并未发现问题,上网查找也未发现相关的问题;于是将代码改成(restrict_css)去抓取数据,发现是能正常获取到数据的,于是改回xpath;但这 ...
分类:
编程语言 时间:
2019-01-24 17:17:02
阅读次数:
299
什么是爬虫 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 哪些语言可以实现爬虫 1.php:可以实现爬虫。但是php在实现爬虫中支持多线程和多进程方面做得不好。 2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与p ...
分类:
编程语言 时间:
2019-01-24 16:32:02
阅读次数:
208
1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful Soup。Beautiful Soup为python的第三方库,可以帮助我们从网页抓取数据。它主要有如下特点: 1.Beautiful Soup可以从一个HTML或者XML提 ...
分类:
编程语言 时间:
2019-01-24 14:31:10
阅读次数:
216
<!-- flowchart 箭头图标 勿删 --> 最近加入了一家新公司,他们是一家电商,业务是网上虚拟充值,我进去是做OA里面的财务, 本来想到的是做一做信息管理的,没想到还涉及到去别的网站采集数据(解析Html, 最终用采集到的数据生成财务凭证)这一环,这个是我从未接触过的领域, 大致看了一下 ...
分类:
Web程序 时间:
2019-01-23 20:29:54
阅读次数:
203
手机端抓包设置 一、fiddler设置 1、打开Fiddler, Tools-> Fiddler Options (配置完后记得要重启Fiddler) 选中https中的"Decrpt HTTPS traffic", Fiddler就可以截获HTTPS请求 选中connections中的"Allow ...
分类:
移动开发 时间:
2019-01-18 17:26:17
阅读次数:
280
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据 爬 ...
分类:
编程语言 时间:
2019-01-10 22:53:34
阅读次数:
184
问题: 公众微信号调起微信支付的时候,有的时候调起支付成功,有的时候调起支付失败。利用抓包工具抓取数据显示授权和调用后台的微信预支付订单接口都成功并且都返回正确的数据。但是调起支付的时候传入的data老是弹出{‘isTrusted:false’},正常的data应该是调用生成预支付订单的返回数据,即 ...
分类:
微信 时间:
2019-01-10 20:27:12
阅读次数:
361
知识预览 beautifulsoup的简单实用 beautifulsoup的遍历文档树 beautifulsoup的搜索文档树 beautifulsoup的css选择器 beautifulsoup的简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 ...
分类:
其他好文 时间:
2019-01-03 22:32:32
阅读次数:
230
写在前面 写了一段时间的博客了,忽然间忘记了,其实博客频道的博客也是可以抓取的,所以我干了..... 其实这事情挺简单的,打开CSDN博客首页,他不是有个最新文章么,这个里面都是最新发布的文章。 打开F12抓取一下数据API,很容易就获取到了他的接口 提取链接长成这个样子 发现博客最新文章是一个瀑布 ...
分类:
编程语言 时间:
2019-01-03 10:52:02
阅读次数:
176