搜索关键字：spider，搜索到1087个结果！码迷,mamicode.com！

[python]糗百热点爬虫v2.0【15/4/21更新】

刚刚测试了糗百爬虫，结果第二天糗百的源代码就换格式了= = 重新改了正则表达式发上来：#! -*- coding:utf-8 -*- #! usr/bin/python''' #===================================================== # FileName: Spider_qb.py # Describe: 从糗百下载段子并依次播放 #...

分类：编程语言时间：2015-04-22 09:38:51 阅读次数：200

[python]糗百热点爬虫

有小部分的修改，并加入详细注释#! -*- coding:utf-8 -*- #! usr/bin/python''' #===================================================== # FileName: Spider_qb.py # Describe: 从糗百下载段子并依次播放 # Modifier: sunny # Sinc...

分类：编程语言时间：2015-04-20 18:38:44 阅读次数：143

Font-Spider 一个神奇的网页中文字体工具，就是这么任性

文章摘要： 1>> font-spider 字体神奇由于活动项目推广的需要，页面需要用到一些漂亮好看的字体，example :邯郸-韩鹏毛遂体.ttf、方正喵呜.ttf我看了一些好看的测试活动页面的demo，页面的（问题和答案）都是直接切成的小图片，我看了也是楞了，难怪这么好看。于是本想着也这么做，...

分类：Web程序时间：2015-04-20 18:23:31 阅读次数：418

php简单实现spider 抓URL

0x01spider抓取URL 采用的是file_get_contents()/fopen()函数，利用正则匹配的方式(貌似最简单方式了，记录下后续添加)0x02usage:php spider.php www.baidu.com 结果保存在www.baidu.com文件中Code:--------...

分类：Web程序时间：2015-04-20 12:49:46 阅读次数：139

shell命令curl抓取网页内容-下载xls文件

通过curl命令抓取网页内容，关键点如下： 1.curl要模拟浏览器，最好是有个代理，因为很多站点都会搞个反爬虫什么的。 2.我的需求很简单，就是在国家外汇管理局上下载各种货币对美元的汇率。 http://www.safe.gov.cn/wps/portal/sy/tjsj_dmzsl 3.主要命令：curl，grep，awk，xls2txt，msql(LOAD DATA )。 cu...

分类：Web程序时间：2015-04-15 19:42:27 阅读次数：212

爬虫框架scrapy 1个piplines 对应多个spider，并且分别处理

defprocess_item(self,item,spider):ifre.search(r‘***‘,item[‘lineContent‘].encode(‘utf8‘)):raiseDropItem("noneedin%s"%item[‘lineContent‘])else:ifspider.name==‘**‘:query=self.dbpool.runInteraction(self._conditional_insert,item)#query.addErrback(self.handle_err..

分类：其他好文时间：2015-04-06 06:35:15 阅读次数：1264

Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】抓取天猫某网店所有宝贝详情

第二部分抽取起始页中进入宝贝详情页面的链接创建项目，并生成spider模板，这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码，定位到要链接然后在shell中打开网页：scrapyshellhttp://shanhuijj.tmall.com/search.h..

分类：编程语言时间：2015-04-05 19:04:49 阅读次数：400

我的第一个python爬虫程序(从百度贴吧自动下载图片)

这个学期开设了编译原理和形式语言与自动机，里面都有介绍过正则表达式，今天自己学了学用python正则表达式写爬虫一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址...

分类：编程语言时间：2015-04-04 23:49:43 阅读次数：1019

织梦CMS被挂马特征汇总

一、织梦CMS被挂马特征汇总2013织梦CMS被挂马特征汇总。最近很多朋友反应后台多了几个系统管理员用户：service、spider等，而且自己之前的管理员用户登陆时候会提示用户名不存在。还有朋友的织梦CMS网站里出现asdd、90sec、service等PHP格式的非DedeCMS源文件，这些...

分类：其他好文时间：2015-04-04 15:05:20 阅读次数：128

cURL 学习笔记与总结（2）网页爬虫、天气预报

例1.一个简单的 curl 获取百度 html 的爬虫程序（crawler）：spider.phpd:D:\>cd practise/php/curlD:\practise\php\curl>php -f weather.php > weather.txt把返回的结果保存在 txt 文件中（如果报错...

分类：Web程序时间：2015-03-29 01:52:58 阅读次数：246

共1087条上一页 1 ... 98 99 100 101 102 ... 109 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)