1、esay_install
easy_install是Python的发行包管理工具,类似于linux的apt-get或者yum包管理工具,使用easy_install可以很方便的获取第三方的Python发行模块。
安装方法:
1.1 Mac OS X 系统可以在终端执行以下命令:
curl https://bootstrap.pypa.io/ez_setup.py -o - ...
分类:
编程语言 时间:
2015-01-22 18:04:45
阅读次数:
629
转载请注明出处:
温馨提示:本文用到了一些可以在启动memcached设置的全局变量。关于这些全局变量的含义可以参考《memcached启动参数详解》。对于这些全局变量,处理方式就像《如何阅读memcached源代码》所说的那样直接取其默认值。
过期失效处理:
一个item在两种情况下会过期失效:1.item的exptime...
分类:
系统相关 时间:
2015-01-21 10:15:13
阅读次数:
373
原文地址:http://blog.csdn.net/pi9nc/article/details/9734437[Python]网络爬虫(一):抓取网页的含义和URL基本构成分类:爬虫Python2013-05-13 22:301597人阅读评论(0)收藏举报一、网络爬虫的定义网络爬虫,即Web S....
分类:
编程语言 时间:
2015-01-20 17:43:05
阅读次数:
357
本文禁止任何爬虫爬取!来源:http://www.cnblogs.com/sciencefans/ 一直都持有一个观点,思考是最佳的学习途径(当然信息的获取是必不可少的),就像神经网络里,看书就是训练set的训练,思考则是最重要的求梯度BP的过程。2014年是一个神奇的一年,在这一年中发生了很多事....
分类:
其他好文 时间:
2015-01-20 06:11:37
阅读次数:
191
同步/异步,阻塞/非阻塞的个人小总结
最近一直在用scrapy写编写爬虫程序,在阅读其源码和开源项目的时候,常常会接触到一些网络编程相关的东东。
首先,Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架, 它使用的是非堵塞的异步处理。
在网络编程中有 阻塞/非阻塞 和 同步/异步的概念,这里我做了一个总结:
因为中文语意的问题,很多时候确实会导致混用,而且...
分类:
其他好文 时间:
2015-01-19 19:10:04
阅读次数:
183
#!/usr/bin/python
# -*- coding: utf-8 -*-
import sys
import re
import urllib2
from BeautifulSoup import BeautifulSoup
def search(key):
#请求搜索链接,关键字用参数key代替
search_url='http://www.baidu.com/s?ie=UT...
分类:
编程语言 时间:
2015-01-19 09:22:12
阅读次数:
166
Atitit.网页爬虫的架构总结
1. 总数的结构..(接口方法) 1
2. 获得页数 1
3. 跳页处理(接口方法) 2
4. 单个的页面处理(接口方法) 2
4.1. 获得页面url 3
4.2. 获得页面html 3
4.3. 获得list 3
4.4. 处理单个的数据条目 3
5. 调用 4
6. 日志的实现 4
7. 参考 4
1. 总数的结构..(接...
分类:
Web程序 时间:
2015-01-17 15:14:10
阅读次数:
216
原文地址: http://www.lanceyan.com/tech/arch/snscrawler.html
随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。
我们来看一...
分类:
其他好文 时间:
2015-01-16 16:48:11
阅读次数:
166