刚刚测试了糗百爬虫,结果第二天糗百的源代码就换格式了= =
重新改了正则表达式发上来:#! -*- coding:utf-8 -*-
#! usr/bin/python'''
#=====================================================
# FileName: Spider_qb.py
# Describe: 从糗百下载段子并依次播放
#...
分类:
编程语言 时间:
2015-04-22 09:38:51
阅读次数:
200
有小部分的修改,并加入详细注释#! -*- coding:utf-8 -*-
#! usr/bin/python'''
#=====================================================
# FileName: Spider_qb.py
# Describe: 从糗百下载段子并依次播放
# Modifier: sunny
# Sinc...
分类:
编程语言 时间:
2015-04-20 18:38:44
阅读次数:
143
文章摘要: 1>> font-spider 字体神奇由于活动项目推广的需要,页面需要用到一些漂亮好看的字体,example :邯郸-韩鹏毛遂体.ttf、方正喵呜.ttf我看了一些好看的测试活动页面的demo,页面的(问题和答案)都是直接切成的小图片,我看了也是楞了,难怪这么好看。于是本想着也这么做,...
分类:
Web程序 时间:
2015-04-20 18:23:31
阅读次数:
418
0x01spider抓取URL 采用的是file_get_contents()/fopen()函数,利用正则匹配的方式(貌似最简单方式了,记录下后续添加)0x02usage:php spider.php www.baidu.com 结果保存在www.baidu.com文件中Code:--------...
分类:
Web程序 时间:
2015-04-20 12:49:46
阅读次数:
139
通过curl命令抓取网页内容,关键点如下:
1.curl要模拟浏览器,最好是有个代理,因为很多站点都会搞个反爬虫什么的。
2.我的需求很简单,就是在国家外汇管理局上下载各种货币对美元的汇率。
http://www.safe.gov.cn/wps/portal/sy/tjsj_dmzsl
3.主要命令:curl,grep,awk,xls2txt,msql(LOAD DATA )。
cu...
分类:
Web程序 时间:
2015-04-15 19:42:27
阅读次数:
212
defprocess_item(self,item,spider):ifre.search(r‘***‘,item[‘lineContent‘].encode(‘utf8‘)):raiseDropItem("noneedin%s"%item[‘lineContent‘])else:ifspider.name==‘**‘:query=self.dbpool.runInteraction(self._conditional_insert,item)#query.addErrback(self.handle_err..
分类:
其他好文 时间:
2015-04-06 06:35:15
阅读次数:
1264
第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:
编程语言 时间:
2015-04-05 19:04:49
阅读次数:
400
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:
编程语言 时间:
2015-04-04 23:49:43
阅读次数:
1019
一、织梦CMS被挂马特征汇总2013织梦CMS被挂马特征汇总。最近很多朋友反应后台多了几个系统管理员用户:service、spider等,而且自己之前的管理员用户登陆 时候会提示用户名不存在。还有朋友的织梦CMS网站里出现asdd、90sec、service等PHP格式的非DedeCMS源文件,这些...
分类:
其他好文 时间:
2015-04-04 15:05:20
阅读次数:
128
例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler):spider.phpd:D:\>cd practise/php/curlD:\practise\php\curl>php -f weather.php > weather.txt把返回的结果保存在 txt 文件中(如果报错...
分类:
Web程序 时间:
2015-03-29 01:52:58
阅读次数:
246