爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 参考代码 ...
分类:
编程语言 时间:
2017-08-23 00:41:33
阅读次数:
153
案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread ...
分类:
编程语言 时间:
2017-08-23 00:34:26
阅读次数:
237
1.提取某一页的所有段子
#-*-coding:utf-8-*-
importurllib
importurllib2
importre
page=1
url=‘http://www.qiushibaike.com/hot/page/‘+str(page)
user_agent=‘haha/4.0(compatible;MSIE5.5;WindowsNT)‘
headers={‘User-Agent‘:user_agent}
try:
request=urllib2.Request(..
分类:
其他好文 时间:
2017-08-17 13:02:49
阅读次数:
142
默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。实现代码如下:#!/usr/bin/..
分类:
编程语言 时间:
2017-07-27 22:30:29
阅读次数:
227
Urllib实战 1、爬取糗事百科中段子和用户名: 代码实例: 打印信息: 用户1是: AM八八神 内容是: 突然好怀念零几年的时候QQ刚开始普及,大家搜索陌生人添加聊天,在各种QQ群里神侃大山,无止尽的样子。那时候的新奇与探索。 用户2是: 火炎焱4 内容是: 昨天到哥们家吃饭,喝了点酒,没敢开车 ...
分类:
编程语言 时间:
2017-07-16 11:27:23
阅读次数:
202
一般来说爬虫类框架抓取Ajax动态页面都是通过一些第三方的webkit库去手动执行html页面中的js代码, 最后将生产的html代码交给spider分析。本篇文章则是通过利用fiddler抓包获取json数据分析Ajax页面的具体请求内容,找到获取数据的接口url,直接调用该接口获取数据,省去了引 ...
分类:
移动开发 时间:
2017-06-16 13:29:47
阅读次数:
384
小编,最近写了个单线程的爬虫,主要是爬取糗事百科的图片之类的,下面是源代码,小伙伴们可以拿去参照,学习#!/usr/bin/env python# -*- coding:utf-8 -*-import requests,jsonimport requests,re,os,timeimport url ...
分类:
其他好文 时间:
2017-06-11 11:28:13
阅读次数:
141
import urllib.request import re for page in range(1, 10): url = "https://www.qiushibaike.com/8hr/page/"+str(page)+"/" headers = {"User-Agent": "Mozill... ...
分类:
其他好文 时间:
2017-05-29 18:28:17
阅读次数:
176
闲来无事,学学python爬虫。 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门。 1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.先抓取HTML页面 当然这里可能会产生error:主要有H ...
分类:
编程语言 时间:
2017-05-19 19:28:18
阅读次数:
213
这一次我们利用BeautifulSoup进行网页的解析,方法其实跟前一次的差不多,只是这里我们爬取的是糗事百科,糗事百科有反爬机制,我们需要模拟用户来访问糗事百科网站,也就是加上头部信息headers,其实整体思路与上一篇所写爬虫的思路差不多,拿个速度可以共用。 1、首先我们在打开网页,并在网页空白 ...
分类:
其他好文 时间:
2017-05-16 21:34:03
阅读次数:
230