码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 抓取数据    ( 2655个结果
Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令
1.有些scrapy命令,只有在scrapyproject根目录下才available,比如crawl命令2.scrapygenspidertaobaohttp://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py#-*-coding:utf-8-*- importscrapy classTaobaoSpider(scrapy.Spider): name="taobao" all..
分类:编程语言   时间:2015-01-07 19:07:36    阅读次数:324
python自然语言处理1——从网络抓取数据
Python网络爬虫简明教程 通过本教程可以快速了解网络爬虫过程,对一般性数据抓取有启发意义。...
分类:编程语言   时间:2015-01-06 23:09:10    阅读次数:484
Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
还是上一篇博客的那个网站,我们增加了pipeline.pyitems.pyfromscrapy.itemimportItem,Field classWebsite(Item): name=Field() description=Field() url=Field()dmoz.pyfromscrapy.spiderimportSpider fromscrapy.selectorimportSelector fromdirbot.itemsimportWebsite ..
分类:编程语言   时间:2015-01-06 18:12:30    阅读次数:391
Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
1.任务一,抓取以下两个URL的内容,写入文件http://www.dmoz.org/Computers/Programming/Languages/Python/Books/http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/项目截图和上一个project不同的是,在spider中没有定义rules属性,而是定义了parse方法..
分类:编程语言   时间:2015-01-06 18:11:44    阅读次数:314
Python爬虫框架Scrapy 学习笔记 3 ------- 第一个Scrapy项目
开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的基本目录结构2.编辑items.py3.在spiders目录下,新建spider1.py报错很正常我们按照scrapypr..
分类:编程语言   时间:2015-01-06 12:11:40    阅读次数:277
从网页抓取数据的一般方法
首先要了解对方网页的执行机制,这能够用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比較简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。通常会包括cookie,Referer页面和其它一些乱其八糟可能看不懂的变量,还有就是正常交...
分类:Web程序   时间:2014-12-31 22:39:56    阅读次数:222
[Python]爬取糗事百科
# coding=utf-8 import urllib2 import urllib import re class QiuShi: def _init_(self): self.page = 1 # 从网页获取糗事 def GetQiuShis(self,page): #网址 url = "http://www.qiushibaike.com/...
分类:编程语言   时间:2014-12-21 15:22:50    阅读次数:279
【原创】编写多线程Python爬虫来过滤八戒网上的发布任务
目标:以特定语言技术为关键字,爬取八戒网中网站设计开发栏目下发布的任务相关信息需求:用户通过设置自己感兴趣的关键字或正则表达式,来过滤信息。我自己选择的是通过特定语言技术作为关键字,php、java和python。注意:如果不选用正则表达式,就会把javascript也爬进来,那前端的信息就比较多了...
分类:编程语言   时间:2014-12-17 22:12:52    阅读次数:304
del重复数
楼主 发表于: 2010-06-21 11:46:31本帖最后由 luckycynthia 于 2010-06-21 11:47:46 编辑在抓取数据后对数据进行操作的途中,有时候会碰到重复数据,重复数据有时候会导致了数据库部分设置不能正确设置,所以就要进行筛选。首先,有两个意义上的重复记录,一是完...
分类:其他好文   时间:2014-12-16 11:23:06    阅读次数:203
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!