最近在逛知乎时,看到这么一个问题 最高赞的答案写了个爬虫,把所有的照片都爬下来了。 嘿嘿嘿,技术的力量 正好自己也在学习,加上答主的答案是很久之前的,知乎已经改版了,所以决定自己用Python3写一个练习一下(绝对不是为了下照片).... 设个小小的目标:爬取所有“女性”程序员的照片。 首先是要知道 ...
分类:
其他好文 时间:
2017-06-28 23:03:52
阅读次数:
170
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子 使用的环境是python2.7, scrapy1.2.0 首先创建项目 在要建立项目的目录下执行命令scrapy startproject tutorial scrapy会帮你建立好项目, ...
分类:
编程语言 时间:
2017-06-16 16:39:01
阅读次数:
2057
# coding:utf-8 import requests from bs4 import BeautifulSoup quesNumStr = str(input("请输入搜索关键字:")) url = 'https://www.zhihu.com/search?type=content&q='... ...
分类:
编程语言 时间:
2017-06-13 23:47:35
阅读次数:
953
#-*-coding:utf-8 -*-__author__ = "ruoniao"__date__ = "2017/5/31 20:59" 之前我们通过爬取伯乐在线的文章,伯乐在线对爬取没有什么限制,这次爬取知乎,就有了爬取限制,首先就是登录限制;为破解限制,首先就是模拟登录 模拟登陆首先要明白的 ...
分类:
其他好文 时间:
2017-06-02 22:04:48
阅读次数:
257
PS: 1、爬取的内容里面还有链接没有处理干净,虽然别人给了个源码,但是自己看不懂!(还要加油!↖(^ω^)↗↖(^ω^)↗) 2、视频里面说要模拟浏览器登入,但是我这里没有模拟还是可以正常的爬取(我用的是Python3) ...
分类:
编程语言 时间:
2017-02-11 20:43:37
阅读次数:
215
第一个大错误是没能及时释放非托管资源,导致程序运行长的之后抛出OutOfMemoryException. 这个小Demo主要的非托管资源一个是http请求的httpWebresopne和流,另外一个是RedisCline。导致这个问题出现不是我不知道要释放非托管资源,而是代码疏忽。这个写代码习惯应该 ...
分类:
其他好文 时间:
2017-01-08 13:06:08
阅读次数:
189
这个模块的作用是从nexturl队列获取用户的关注列表的url,获取关注列表。服务器返回的Json的数据 封装一个对象的序列化和反序列化的类 封装UrlTask类 添加一个获取资源的方法 解析:如果result.paging.is_end为true,那么这个是用户关注列表的最后一页,那么它的next ...
分类:
Web程序 时间:
2017-01-08 12:59:04
阅读次数:
252
博客首发至Marcovaldo’s blog (http://marcovaldong.github.io/)最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结。...
分类:
编程语言 时间:
2016-08-25 21:43:48
阅读次数:
188
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步。Java是真的不能做爬虫吗? 当然不是。 只不过python的3行代码能解决的问题,而Java要30行。 这里推荐大家一个大牛做的java爬虫框架 【WebMagic】 文档简单易懂!java ...
分类:
Web程序 时间:
2016-06-20 08:53:37
阅读次数:
352
前些天学习python,完成了python练习册的大部分习题:https://github.com/Show-Me-the-Code/python(我的github上有习题代码,欢迎自取)。之后看到@salamer的一个python爬虫项目,觉得很不错。于是自己花了4天的时间完成了一个大规模爬取知乎用户信息的爬虫,由于个人网络原因,爬取12小时,获得了34k用户的信息(理论上可以爬全站的信息,可能...
分类:
编程语言 时间:
2016-05-07 07:16:31
阅读次数:
267