1 namespace HTML 2 { 3 class Program 4 { 5 const string qsbkMainUrl = "http://www.qiushibaike.com"; 6 7 private static string GetWBJokeUrl(int pageInd ...
分类:
其他好文 时间:
2018-04-10 13:26:23
阅读次数:
145
1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.分析页面,找到段子部分的位置, 需要一点CSS和HTML的知识 3、编写代码 4、执行以下,结果如下: ...
分类:
编程语言 时间:
2018-03-29 23:13:16
阅读次数:
352
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下。也比较简单,就写出来分享一下。嘿嘿 环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先来分析。地址:https://www.qiushibaike.com 一般像这种都是文本的话,查看源 ...
分类:
编程语言 时间:
2018-03-06 00:57:00
阅读次数:
216
之前我用过多线程的方式执行了爬虫程序,爬取了糗事百科的数据可以看到速率非常之快,就像正常一个人他要完一个汉堡,再吃喝一瓶水才能走,结果他边吃汉堡边喝水,速率一下加快了一样。首先我们看看什么是线程: 图中我将一个PY文件的内容,进行了细化,这个PY文件如果要执行,那么他这个行为就叫做一个进程,那么线程 ...
分类:
编程语言 时间:
2018-02-04 00:37:28
阅读次数:
161
最近正在学习python爬虫,爬虫可以做很多有趣的事,本文利用python爬虫来爬取糗事百科的用户以及段子,我们需要利用python获取糗事百科一个页面的用户以及段子,就需要匹配两次,然后将获取的内容格式化输出就可以了。这是我写的脚本:#coding:utf-8importurllib2importurllibimportreimportsysreload(sys)sys.setdefaulten
分类:
编程语言 时间:
2018-01-28 16:31:50
阅读次数:
245
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故。 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图 ...
分类:
编程语言 时间:
2018-01-10 11:41:16
阅读次数:
198
这次爬取的网站是糗事百科,网址是:http://www.qiushibaike.com/hot/page/1 分析网址,参数'page/'后面的数字'1'指的是页数,第二页就是'/page/2',以此类推。。。 一、分析网页 网页图片 然后明确要爬取的元素:作者名、内容、好笑数、以及评论数量 每一个 ...
分类:
编程语言 时间:
2017-12-23 23:07:32
阅读次数:
408
多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(队列对象) Queue是python中的标准库,可以直接 引用;队列时线程间最常用的交互数据的形式。 python下多线程的思考 对于资 ...
分类:
编程语言 时间:
2017-12-21 20:47:34
阅读次数:
199
糗事百科实例 爬取糗事百科段子,假设页面的URL是: http://www.qiushibaike.com/8hr/page/1 要求: 1. 使用requests获取页面信息,用XPath/re做数据提取 2. 获取每个帖子里的用户头像连接、用户姓名、段子内容、点赞次数和评论次数 3. 保存到js ...
分类:
编程语言 时间:
2017-12-21 19:41:35
阅读次数:
173
1. 写在前面 往常都是利用 Python/.NET 语言实现爬虫,然现在作为一名前端开发人员,自然需要熟练 NodeJS。下面利用 NodeJS 语言实现一个糗事百科的爬虫。另外,本文使用的部分代码是 es6 语法。 实现该爬虫所需要的依赖库如下。 1. request: 利用 get 或者 po ...
分类:
Web程序 时间:
2017-12-14 04:13:31
阅读次数:
219