自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆。目前正在不断学习相关知识。下面简单写一下用selenium处理动态加载页面相关的知识。目标——抓取页面所有的高考录取分数信息。 对于动态加载,开始的时候是看到Selenium+Ph ...
分类:
其他好文 时间:
2016-07-23 00:32:38
阅读次数:
447
爬虫有时候也要进入登陆页面之后进行爬取,这就避免不了模拟登陆了。自己在这里卡了好久,终于算是模拟成功一次。 当然,这次也是用requests,真是好用的很呢。上代码。 下面是代码输出结果。 ...
分类:
其他好文 时间:
2016-07-10 12:29:45
阅读次数:
129
最终我决定通过webbrowser模拟登陆支付宝,获取数据。根据业务需求,我需要把获取支付宝的数据做成接口,供业务去调用。难点在于如何可以稳定的切换账号,并且保证服务24小时可用。需要处理一系列的异常和超时。缺点是这边变成单线程,登录获取数据只能一个进行完了再进行下一个。 简单列下登录流程 爬虫服务 ...
分类:
其他好文 时间:
2016-07-01 18:06:06
阅读次数:
115
参考资料: 本帖目标: 1.模拟登陆学校教务系统 2.对教务系统中的学生成绩进行抓取 3.将抓取到的内容保存到excel表格并计算平均成绩和绩点 ...
分类:
其他好文 时间:
2016-06-08 10:24:08
阅读次数:
297
一程序介绍1.1文件分布login_user.jpg流程图信息README.txtlogin_main_v1.1.py主程序user_config.conf配置文件流程图:README.txt####bycw#####login_main_v1.1.py#2016-06-04程序运行说明:1.运行程序login_main.py2.输入用户名和密码,Input_check()检查用户输入是否正确,用..
分类:
编程语言 时间:
2016-06-04 18:06:00
阅读次数:
227
参考地址:http://www.cnblogs.com/zhengbing/p/3459249.html ...
分类:
编程语言 时间:
2016-06-04 17:40:39
阅读次数:
218