码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 you-get    ( 2477个结果
继续Python爬虫
先贴上代码# coding:utf-8import urllib2import urllibimport regjc = urllib.quote('你好')url = 'http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&...
分类:编程语言   时间:2015-01-11 16:04:12    阅读次数:175
Python爬虫框架Scrapy 学习笔记 8----Spider
什么是爬虫?从逻辑角度讲,爬虫对应一个树。树枝是网页,树叶是感兴趣的信息。当我们从一个URL出发查找感兴趣的信息时,当前URL返回的内容可能包含我们感兴趣的信息,也可能包含另一个可能包含我们感兴趣的信息的URL。一个爬虫对应一次信息搜索,信息搜索过程会建立起一棵树。s..
分类:编程语言   时间:2015-01-11 06:25:52    阅读次数:641
Python模拟登陆:模拟登陆电子科大信息门户测试
最近在学习Python的网络操作,网上有很多模拟登陆方法。这里做个笔记。 没有验证码的还是比较容易的。 #coding:utf-8 import re import urllib import urllib2 import cookielib import os import json import sys import time from urllib import quote,unquote...
分类:编程语言   时间:2015-01-10 18:13:00    阅读次数:369
三张图告诉你python爬虫时转换\u中文字符的“坑”
三张图告诉你python爬虫时转换\u中文字符的“坑”...
分类:编程语言   时间:2015-01-09 21:01:02    阅读次数:215
Python爬虫框架Scrapy 学习笔记 7------- scrapy.Item源码剖析
在前面的example中,我们知道定义一个Item类很简单,只要继承scrapy.Item,然后添加几个类型为scrapy.Field的对象作为类属性,就像下面这样importscrapy classProduct(scrapy.Item): name=scrapy.Field() price=scrapy.Field() stock=scrapy.Field() last_updated=scrapy.Field(..
分类:编程语言   时间:2015-01-08 07:18:25    阅读次数:958
Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令
1.有些scrapy命令,只有在scrapyproject根目录下才available,比如crawl命令2.scrapygenspidertaobaohttp://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py#-*-coding:utf-8-*- importscrapy classTaobaoSpider(scrapy.Spider): name="taobao" all..
分类:编程语言   时间:2015-01-07 19:07:36    阅读次数:324
Python爬虫框架Scrapy 学习笔记 5 ------- 使用pipelines过滤敏感词
还是上一篇博客的那个网站,我们增加了pipeline.pyitems.pyfromscrapy.itemimportItem,Field classWebsite(Item): name=Field() description=Field() url=Field()dmoz.pyfromscrapy.spiderimportSpider fromscrapy.selectorimportSelector fromdirbot.itemsimportWebsite ..
分类:编程语言   时间:2015-01-06 18:12:30    阅读次数:391
Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
1.任务一,抓取以下两个URL的内容,写入文件http://www.dmoz.org/Computers/Programming/Languages/Python/Books/http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/项目截图和上一个project不同的是,在spider中没有定义rules属性,而是定义了parse方法..
分类:编程语言   时间:2015-01-06 18:11:44    阅读次数:314
Python爬虫框架Scrapy 学习笔记 3 ------- 第一个Scrapy项目
开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的基本目录结构2.编辑items.py3.在spiders目录下,新建spider1.py报错很正常我们按照scrapypr..
分类:编程语言   时间:2015-01-06 12:11:40    阅读次数:277
ETL 解析
extract-transform-load (ETL)Everyone understands the three letters: You get the data out of its original source location (E), you do something to it (...
分类:其他好文   时间:2014-12-23 19:22:05    阅读次数:127
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!