软件安装过程中,在安装lxml的时候出现如下错误error:command‘gcc‘failedwithexitstatus1gcc当然没问题,问题原因是缺少相关组件,安装以下2个组件即可,yuminstalllibxslt-devellibxml2-devel回到lxml-3.4.2目录,执行pythonsetup.pyinstall安装成功!
分类:
编程语言 时间:
2016-05-09 18:56:12
阅读次数:
301
因为要做去转盘网(分类模式点我),所以一定要爬取网盘资源,本来想自己写一个爬虫挺不容易的,不想分享出来,但最后还是决定了拿给大家一起看吧,毕竟有交流才有进步,有兴趣的朋友也可以看看我写的其他日志或者关注我,会发现去转盘网的大部分技术现在可以说是公开状态,如..
分类:
其他好文 时间:
2016-05-09 11:12:41
阅读次数:
253
该小脚本实现对电影天堂网站的最新电影查找。frombs4importBeautifulSoup
importurllib
importre
url=‘http://www.ygdy8.net/html/gndy/dyzz/index.html‘
moive_url_list=[]
moive_name_list=[]
request=urllib.urlopen(url)
response=request.read()
response=unicode(respons..
分类:
编程语言 时间:
2016-05-09 07:15:15
阅读次数:
218
脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中。#!/usr/bin/envpython
#coding:utf-8
frombs4importBeautifulSoup
importurllib
importre
importMySQLdb
k_art_name=[]
v_art_url=[]
db=MySQLdb.connect(‘192.168.115.5‘,‘blog‘,‘blog‘,‘blog‘)
cursor=db.cursor(..
分类:
数据库 时间:
2016-05-08 12:08:50
阅读次数:
701
脚本一:#!/usr/bin/envpython
#coding:utf-8
frombs4importBeautifulSoup
importurllib
importre
art={}
forpageinrange(1,5):
page=str(page)
url=‘http://yujianglei.blog.51cto.com/all/7215578/page/‘+page
response=urllib.urlopen(url).read()
response=unicode(respons..
分类:
编程语言 时间:
2016-05-08 01:23:18
阅读次数:
205
from bs4 import BeautifulSoupimport requestsurl = 'http://bj.xiaozhu.com/fangzi/1508951935.html'wb_data = requests.get(url)soup = BeautifulSoup(wb_dat ...
分类:
编程语言 时间:
2016-05-07 18:25:12
阅读次数:
245
一、Firefox 上插件安装
1.XPath Checker:一个交互式编辑XPath表达式,在网页中选择 'View XPath' 可看到XPath路径,例如:
2.Firebug:Firebug 为你的 Firefox 集成了浏览网页的同时随手可得的丰富开发工具。你可以对任...
分类:
编程语言 时间:
2016-05-07 11:20:16
阅读次数:
259
百度音乐不需要登录也可以下载?听到这个消息是不是很兴奋呢,
接下来我们打开百度音乐,随便打开一首歌,切换到百度播放页面:如图
我这里用的是Firfox 浏览器,打开firebug 先清空所有的请求,如图:
现在我们重新刷新下页面,看到这个.mp3的地址就是百度音乐的地址,我们可以直接复制到迅雷里下载,但是这种做法太初级了吧,如果有很多首歌曲呢,每个都这样复制,岂不是很麻烦啊。,接下来...
分类:
编程语言 时间:
2016-05-07 09:10:47
阅读次数:
211
前些天学习python,完成了python练习册的大部分习题:https://github.com/Show-Me-the-Code/python(我的github上有习题代码,欢迎自取)。之后看到@salamer的一个python爬虫项目,觉得很不错。于是自己花了4天的时间完成了一个大规模爬取知乎用户信息的爬虫,由于个人网络原因,爬取12小时,获得了34k用户的信息(理论上可以爬全站的信息,可能...
分类:
编程语言 时间:
2016-05-07 07:16:31
阅读次数:
267
这篇文章主要讲述了使用python+selenium爬取新浪微博的热点话题和评论信息。其中使用该爬虫的缺点是效率极低,傻瓜式的爬虫,不能并行执行等,但是它的优点是采用分析DOM树结构分析网页源码并进行信息爬取,同时它可以通过浏览器进行爬取中间过程的演示及验证码的输入。这篇文章对爬虫的详细过程就不再论述了,主要是提供可运行的代码和运行截图即可。希望文章对你有所帮助吧~...
分类:
移动开发 时间:
2016-05-06 09:31:23
阅读次数:
1034