码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
[python]糗百热点爬虫v2.0【15/4/21更新】
刚刚测试了糗百爬虫,结果第二天糗百的源代码就换格式了= = 重新改了正则表达式发上来:#! -*- coding:utf-8 -*- #! usr/bin/python''' #===================================================== # FileName: Spider_qb.py # Describe: 从糗百下载段子并依次播放 #...
分类:编程语言   时间:2015-04-22 09:38:51    阅读次数:200
[python]糗百热点爬虫
有小部分的修改,并加入详细注释#! -*- coding:utf-8 -*- #! usr/bin/python''' #===================================================== # FileName: Spider_qb.py # Describe: 从糗百下载段子并依次播放 # Modifier: sunny # Sinc...
分类:编程语言   时间:2015-04-20 18:38:44    阅读次数:143
Font-Spider 一个神奇的网页中文字体工具,就是这么任性
文章摘要: 1>> font-spider 字体神奇由于活动项目推广的需要,页面需要用到一些漂亮好看的字体,example :邯郸-韩鹏毛遂体.ttf、方正喵呜.ttf我看了一些好看的测试活动页面的demo,页面的(问题和答案)都是直接切成的小图片,我看了也是楞了,难怪这么好看。于是本想着也这么做,...
分类:Web程序   时间:2015-04-20 18:23:31    阅读次数:418
php简单实现spider 抓URL
0x01spider抓取URL 采用的是file_get_contents()/fopen()函数,利用正则匹配的方式(貌似最简单方式了,记录下后续添加)0x02usage:php spider.php www.baidu.com 结果保存在www.baidu.com文件中Code:--------...
分类:Web程序   时间:2015-04-20 12:49:46    阅读次数:139
shell命令curl抓取网页内容-下载xls文件
通过curl命令抓取网页内容,关键点如下: 1.curl要模拟浏览器,最好是有个代理,因为很多站点都会搞个反爬虫什么的。 2.我的需求很简单,就是在国家外汇管理局上下载各种货币对美元的汇率。 http://www.safe.gov.cn/wps/portal/sy/tjsj_dmzsl 3.主要命令:curl,grep,awk,xls2txt,msql(LOAD DATA )。 cu...
分类:Web程序   时间:2015-04-15 19:42:27    阅读次数:212
爬虫框架scrapy 1个piplines 对应多个spider,并且分别处理
defprocess_item(self,item,spider):ifre.search(r‘***‘,item[‘lineContent‘].encode(‘utf8‘)):raiseDropItem("noneedin%s"%item[‘lineContent‘])else:ifspider.name==‘**‘:query=self.dbpool.runInteraction(self._conditional_insert,item)#query.addErrback(self.handle_err..
分类:其他好文   时间:2015-04-06 06:35:15    阅读次数:1264
Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:编程语言   时间:2015-04-05 19:04:49    阅读次数:400
我的第一个python爬虫程序(从百度贴吧自动下载图片)
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:编程语言   时间:2015-04-04 23:49:43    阅读次数:1019
织梦CMS被挂马特征汇总
一、织梦CMS被挂马特征汇总2013织梦CMS被挂马特征汇总。最近很多朋友反应后台多了几个系统管理员用户:service、spider等,而且自己之前的管理员用户登陆 时候会提示用户名不存在。还有朋友的织梦CMS网站里出现asdd、90sec、service等PHP格式的非DedeCMS源文件,这些...
分类:其他好文   时间:2015-04-04 15:05:20    阅读次数:128
cURL 学习笔记与总结(2)网页爬虫、天气预报
例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler):spider.phpd:D:\>cd practise/php/curlD:\practise\php\curl>php -f weather.php > weather.txt把返回的结果保存在 txt 文件中(如果报错...
分类:Web程序   时间:2015-03-29 01:52:58    阅读次数:246
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!