多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是n ...
分类:
编程语言 时间:
2018-07-11 00:56:24
阅读次数:
171
代码:import requestsfrom lxml import etreeimport csvimport jsonfp = open('E:/map.csv','wt',newline='',encoding='utf-8')writer = csv.writer(fp)writer.wri ...
分类:
其他好文 时间:
2018-07-08 22:01:14
阅读次数:
227
import requestsimport reheaders = { 'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)'}info_lists = []def judg ...
分类:
编程语言 时间:
2018-07-02 20:17:08
阅读次数:
205
Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的 ...
分类:
编程语言 时间:
2018-06-19 00:52:14
阅读次数:
232
爬取糗事百科段子,页面的URL是 http://www.qiushibaike.com/8hr/page/ 使用requests获取页面信息,用XPath 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 ...
分类:
其他好文 时间:
2018-06-17 19:48:27
阅读次数:
263
(1)、简介 在糗事百科爬虫中我们的爬虫是继承scrapy.Spider类的,这也是基本的scrapy框架爬虫,在这个爬虫中我们自己在解析完整个页面后再获取下一页的url,然后重新发送了一个请求,而使用CrawlsSpider类可以帮助我们对url提出条件,只要满足这个条件,都进行爬取,CrawlS ...
分类:
其他好文 时间:
2018-06-12 14:45:06
阅读次数:
157
关于爬虫也是刚接触,案例是基于python3做的, 依靠selenium的webdriver做的,所以python3必须有selenium这个包, 如果是基于谷歌浏览器的话需要下载谷歌浏览器的驱动,放在python的目录下,在此之前记得把环境变量安装好 直接上代码 ...
分类:
编程语言 时间:
2018-05-22 19:48:42
阅读次数:
172
#在平常写代码的文件夹下新建一个image_spider的文件夹作为工程文件,并在此文件夹目录下新建一个image文件夹作为保存图片的文件#抓取百科的图片#访问url必须有http开头import requestsimport redef crawl_image(image_url, image_l ...
分类:
其他好文 时间:
2018-04-21 17:41:14
阅读次数:
138
#-*-coding:utf-8-*- import urllib import urllib2 import re def get_duanzi(url): store=[] user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64)' headers={'U... ...
分类:
编程语言 时间:
2018-04-14 12:33:11
阅读次数:
218