码迷,mamicode.com
首页 >  
搜索关键字:爬虫 pyton    ( 10534个结果
运行nutch提示:0 records selected for fetching, exiting
运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出,怎么回事呢? ? 原因多种多样,归根结底就是CrawlDB中的URL经过爬虫抓取调度器(默认是org.apache.nutch.crawl.Defa...
分类:其他好文   时间:2015-04-07 12:20:25    阅读次数:266
Python简易爬虫以及嵌套数据类型
一:起因 (0)爬虫就是网络蜘蛛,爬取指定URL的html网页的内容,所以会需要urllib2包,字符串string的操作肯定也是需要的,以及字符串匹配包re。 (1)Python的嵌套类型,一般在基础教程里面很少涉及到的;Python的更高级应用肯定会涉及的,只是个人能力有限,如今没有深入,期待不就将来接触学习一下。 (2)说起嵌套类型,这要从Java 或则 c++的嵌套类型说起,只要你处...
分类:编程语言   时间:2015-04-07 12:07:31    阅读次数:189
爬虫框架scrapy 1个piplines 对应多个spider,并且分别处理
defprocess_item(self,item,spider):ifre.search(r‘***‘,item[‘lineContent‘].encode(‘utf8‘)):raiseDropItem("noneedin%s"%item[‘lineContent‘])else:ifspider.name==‘**‘:query=self.dbpool.runInteraction(self._conditional_insert,item)#query.addErrback(self.handle_err..
分类:其他好文   时间:2015-04-06 06:35:15    阅读次数:1264
Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:编程语言   时间:2015-04-05 19:04:49    阅读次数:400
Scala反射
最近想用scala写一个分布式爬虫框架。没有反射就没有框架。所以需要准备下scala反射的知识什么是反射?反射是程序的一种自省能力。利用反射可以从更高的抽象等级写程序甚至在运行时改变程序本身反射有哪些类型?根据使用的时机不同,可以分为:运行时反射,编译时反射,具体化..
分类:其他好文   时间:2015-04-05 06:46:52    阅读次数:844
我的第一个python爬虫程序(从百度贴吧自动下载图片)
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:编程语言   时间:2015-04-04 23:49:43    阅读次数:1019
浅谈java集合类(三)【Set,Queue】
Set是一个有趣的集合。它看起来有点像List,实际操作却有点像Map。Set也是记录一系列值的集合,但是呢,它和Map的key相同,它不能重复,否则会插入失败。所以呢,我们经常可以看见在Map中可以调用keySet()。说到这呢,它貌似就已经能做很多事了。假如你有兴趣做网络爬虫的话,有一个过滤重复链接的问题就不得不考虑了。Set貌似就是一个非常简单的解决办法了,我们可以用它来去重。 好了,我们...
分类:编程语言   时间:2015-04-04 22:37:28    阅读次数:218
第一次碰到try-except(core python programming 2nd Edition 3.6)
1 # coding: utf-8 # 使用Windows系统,首行'#!/usr/bin/env Pyton'无用,全部改为'# coding: utf-8' 2 3 'readtextfile.py -- read and display text file' 4 5 # get file...
分类:编程语言   时间:2015-04-04 11:52:42    阅读次数:193
Python菜鸟晋级11----urlencode与unquote
当url地址含有中文或者“/”的时候,这是就需要用做urlencode一下编码转换。 一、urlencode urlencode的参数是词典,它可以将key-value这样的键值对转换成我们想要的格式。例如...
分类:编程语言   时间:2015-04-04 09:25:27    阅读次数:192
phost.py 爬虫
----------------------------install --------------------------------------1.下载pyqt http://www.riverbankcomputing.co.uk/software/pyqt/download2. pip in...
分类:其他好文   时间:2015-04-03 23:54:27    阅读次数:193
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!