自己写了百度贴吧的爬虫,分别用urllib+正则和requests+xpath两种方式,对比了执行效率
分类:
其他好文 时间:
2018-08-02 11:16:13
阅读次数:
110
import urllib.request import urllib.parse import ssl ssl._create_default_https_context = ssl._create_unverified_context from lxml import etree def loa... ...
分类:
其他好文 时间:
2018-08-02 01:48:24
阅读次数:
138
C++ 实现简单命令行学生管理系统 贴吧ID: 这把问题不大 编译环境是macOS。 在windows下请换成 ...
分类:
编程语言 时间:
2018-07-26 18:50:37
阅读次数:
200
18年年初开始每天坚持20点到潭州课程学习互联网运营公开课 ,在此记录下以前学过的一些运营相关的知识。 坚持每天至少1篇原创文章或每周至少3篇高质量原创文章 (标题党很重要) 坚持养号,(至少先养一个月,把账号信誉提升上来) 1、QQ群 2、微信公众号 3、大鱼号 4、百度贴吧 5、今日头条 6、百 ...
分类:
其他好文 时间:
2018-07-17 23:21:31
阅读次数:
184
通过xpath分析页面,爬取页面中的图片: ...
分类:
编程语言 时间:
2018-07-15 14:58:51
阅读次数:
224
被写文件坑了一晚上,因为自己写了writeFile(),但是调用的是WriteFile()刚好python里面有WriteFile()所以刚好不报错!!!!! ...
分类:
其他好文 时间:
2018-07-12 21:44:48
阅读次数:
104
1.任务需求 百度贴吧有很多主题,每个主题下的网页存在很多分页。爬取不同的主题,并下载每个主题下的多页网页。 输入贴吧名称,下载相应贴吧的多页网页,设置最多下载50页。 2.分析网页 访问不同的百度贴吧时。尝试搜索多个贴吧,观察到浏览器的url中的kw为贴吧的名称。 因此,发送get请求时,设置不同 ...
分类:
其他好文 时间:
2018-07-07 00:27:41
阅读次数:
194
1、UEditor 百度的。 优点:插件多,基本满足各种需求,类似贴吧中的回复界面。 缺点:不再维护,文档极少,使用并不普遍,图片只能上传到本地服务器,如果需要上传到其他服务器需要改动源码,较为难办,加载速度慢。 总结:小项目,可以用用,不推荐使用。 2、kindeditor 界面类似百度,效果很像 ...
分类:
其他好文 时间:
2018-06-22 18:57:34
阅读次数:
179
我搞JAVA也有些日子了, 因为我比较贪玩,上进心不那么强, 总是逼不得已为了高薪跳槽才去学习, 所以也没混成什么大牛, 但好在现在也已经成家立业, 小日子过的还算滋润, 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用卡 不为金钱过于发愁了。 我特别感谢当初贴吧遇见的那位大神, 虽然每个月也就聊那么几 ...
分类:
编程语言 时间:
2018-06-22 11:02:59
阅读次数:
175