码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
scrapy系统学习(1)--概要
本文操作环境:ubuntu14.04一.安装Scrapy/Mysql/MySQLdb参照官网教程安装Scrapy#sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7#echo 'deb http://a...
分类:其他好文   时间:2015-02-19 09:37:11    阅读次数:456
scrapy爬虫2--Selector篇
网页内容的解析可以说是爬虫最主要和最核心的工作,从一堆看似杂乱的代码中获取我们需要的信息,这就是爬虫的本质。python对于网页解析提供了很多的方式,传统的即通过urllib2包获取网页代码,再通过re正则表达式模块自己写规则来获取信息。第三方的包也有,类似pyquery、lxml、Beautifu...
分类:其他好文   时间:2015-02-15 18:03:18    阅读次数:270
安装Scrapy遇到的一些问题
No package 'libffi' found xslt-config: command not found...
分类:其他好文   时间:2015-02-15 16:40:54    阅读次数:164
scrapy 抓取果壳首页推荐文章
一直对爬虫耿耿于怀,今天总算是实现了,编写了一个Python Scrapy的爬虫获取果壳网首页的推荐文章。 打开果壳首页的一篇推荐文章,URL如下http://www.guokr.com/article/439791/可以看到果壳的文章都是在/article/下,并且所有文章是以6位数字表示,url...
分类:其他好文   时间:2015-02-15 14:54:46    阅读次数:187
scrapy爬虫1--基础设置篇
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho...
分类:其他好文   时间:2015-02-12 19:53:39    阅读次数:251
scrapy递归下载网站
?# encoding: utf-8 import os import re import subprocess import sys import chardet import scrapy from scrapy.http import Request from scrapy.selector ...
分类:Web程序   时间:2015-02-12 09:14:04    阅读次数:205
安装爬虫scrapy
使用easy_install安装scrapy,报错error: Setup script exited with error: command 'gcc' failed with exit status 1查看报错信息发现尝试pip install lxml==3.3.0继续easy_install...
分类:其他好文   时间:2015-02-11 18:05:01    阅读次数:191
scrapy windows 安装教程 python 爬虫框架
本次安装使用的系统环境是windows xp。以下给出具体步骤。我想如果照做一定能够成功哦。   1.安装python2.6.这里选择的是python2.6,为什么选择这个版本, 首先,scrapy官网上明确写出:requirements: Python 2.5, 2.6, 2.7 (3.x is not yet supported), 即目前只支持python2.5,2.6,2...
分类:编程语言   时间:2015-02-10 11:20:33    阅读次数:591
python资源
爬虫:scrapy,beautifulsoup自然语言处理:nltk,Pattern(Google,Twitter,andWikipediaAPIs,awebcrawler,aHTMLDOMparser),结巴分词科学计算:NumPy,SciPy,matplotlib机器学习、数据挖掘:scikit-learn,pandas,MDP(neuralnetworks),PyBrain(neuralnetworks),Theano(GPU,deeplearn..
分类:编程语言   时间:2015-02-07 19:02:28    阅读次数:185
(转)python爬虫----(scrapy框架提高(1),自定义Request爬取)
摘要 之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url。但是一般使用的时候都是需要自己写具体的url抓取函数的。 python 爬虫 scrapy scrapy提高 最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直...
分类:编程语言   时间:2015-02-04 09:16:30    阅读次数:1361
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!