本文操作环境:ubuntu14.04一.安装Scrapy/Mysql/MySQLdb参照官网教程安装Scrapy#sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7#echo 'deb http://a...
分类:
其他好文 时间:
2015-02-19 09:37:11
阅读次数:
456
网页内容的解析可以说是爬虫最主要和最核心的工作,从一堆看似杂乱的代码中获取我们需要的信息,这就是爬虫的本质。python对于网页解析提供了很多的方式,传统的即通过urllib2包获取网页代码,再通过re正则表达式模块自己写规则来获取信息。第三方的包也有,类似pyquery、lxml、Beautifu...
分类:
其他好文 时间:
2015-02-15 18:03:18
阅读次数:
270
No package 'libffi' found
xslt-config: command not found...
分类:
其他好文 时间:
2015-02-15 16:40:54
阅读次数:
164
一直对爬虫耿耿于怀,今天总算是实现了,编写了一个Python Scrapy的爬虫获取果壳网首页的推荐文章。 打开果壳首页的一篇推荐文章,URL如下http://www.guokr.com/article/439791/可以看到果壳的文章都是在/article/下,并且所有文章是以6位数字表示,url...
分类:
其他好文 时间:
2015-02-15 14:54:46
阅读次数:
187
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho...
分类:
其他好文 时间:
2015-02-12 19:53:39
阅读次数:
251
?# encoding: utf-8 import os import re import subprocess import sys import chardet import scrapy from scrapy.http import Request from scrapy.selector ...
分类:
Web程序 时间:
2015-02-12 09:14:04
阅读次数:
205
使用easy_install安装scrapy,报错error: Setup script exited with error: command 'gcc' failed with exit status 1查看报错信息发现尝试pip install lxml==3.3.0继续easy_install...
分类:
其他好文 时间:
2015-02-11 18:05:01
阅读次数:
191
本次安装使用的系统环境是windows xp。以下给出具体步骤。我想如果照做一定能够成功哦。
1.安装python2.6.这里选择的是python2.6,为什么选择这个版本,
首先,scrapy官网上明确写出:requirements:
Python 2.5, 2.6, 2.7 (3.x is not yet supported), 即目前只支持python2.5,2.6,2...
分类:
编程语言 时间:
2015-02-10 11:20:33
阅读次数:
591
爬虫:scrapy,beautifulsoup自然语言处理:nltk,Pattern(Google,Twitter,andWikipediaAPIs,awebcrawler,aHTMLDOMparser),结巴分词科学计算:NumPy,SciPy,matplotlib机器学习、数据挖掘:scikit-learn,pandas,MDP(neuralnetworks),PyBrain(neuralnetworks),Theano(GPU,deeplearn..
分类:
编程语言 时间:
2015-02-07 19:02:28
阅读次数:
185
摘要 之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url。但是一般使用的时候都是需要自己写具体的url抓取函数的。 python 爬虫 scrapy scrapy提高 最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直...
分类:
编程语言 时间:
2015-02-04 09:16:30
阅读次数:
1361