先贴上代码# coding:utf-8import urllib2import urllibimport regjc = urllib.quote('你好')url = 'http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&...
分类:
编程语言 时间:
2015-01-11 16:04:12
阅读次数:
175
什么是爬虫?从逻辑角度讲,爬虫对应一个树。树枝是网页,树叶是感兴趣的信息。当我们从一个URL出发查找感兴趣的信息时,当前URL返回的内容可能包含我们感兴趣的信息,也可能包含另一个可能包含我们感兴趣的信息的URL。一个爬虫对应一次信息搜索,信息搜索过程会建立起一棵树。s..
分类:
编程语言 时间:
2015-01-11 06:25:52
阅读次数:
641
最近在学习Python的网络操作,网上有很多模拟登陆方法。这里做个笔记。 没有验证码的还是比较容易的。
#coding:utf-8
import re
import urllib
import urllib2
import cookielib
import os
import json
import sys
import time
from urllib import quote,unquote...
分类:
编程语言 时间:
2015-01-10 18:13:00
阅读次数:
369
三张图告诉你python爬虫时转换\u中文字符的“坑”...
分类:
编程语言 时间:
2015-01-09 21:01:02
阅读次数:
215
在前面的example中,我们知道定义一个Item类很简单,只要继承scrapy.Item,然后添加几个类型为scrapy.Field的对象作为类属性,就像下面这样importscrapy
classProduct(scrapy.Item):
name=scrapy.Field()
price=scrapy.Field()
stock=scrapy.Field()
last_updated=scrapy.Field(..
分类:
编程语言 时间:
2015-01-08 07:18:25
阅读次数:
958
1.有些scrapy命令,只有在scrapyproject根目录下才available,比如crawl命令2.scrapygenspidertaobaohttp://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py#-*-coding:utf-8-*-
importscrapy
classTaobaoSpider(scrapy.Spider):
name="taobao"
all..
分类:
编程语言 时间:
2015-01-07 19:07:36
阅读次数:
324
还是上一篇博客的那个网站,我们增加了pipeline.pyitems.pyfromscrapy.itemimportItem,Field
classWebsite(Item):
name=Field()
description=Field()
url=Field()dmoz.pyfromscrapy.spiderimportSpider
fromscrapy.selectorimportSelector
fromdirbot.itemsimportWebsite
..
分类:
编程语言 时间:
2015-01-06 18:12:30
阅读次数:
391
1.任务一,抓取以下两个URL的内容,写入文件http://www.dmoz.org/Computers/Programming/Languages/Python/Books/http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/项目截图和上一个project不同的是,在spider中没有定义rules属性,而是定义了parse方法..
分类:
编程语言 时间:
2015-01-06 18:11:44
阅读次数:
314
开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的基本目录结构2.编辑items.py3.在spiders目录下,新建spider1.py报错很正常我们按照scrapypr..
分类:
编程语言 时间:
2015-01-06 12:11:40
阅读次数:
277
extract-transform-load (ETL)Everyone understands the three letters: You get the data out of its original source location (E), you do something to it (...
分类:
其他好文 时间:
2014-12-23 19:22:05
阅读次数:
127