关于requestsrequests是python的一个http客户端库,设计的非常简单,专门为简化http测试写的。官网:
https://pypi.python.org/pypi/requests/
http://docs.python-req...
分类:
编程语言 时间:
2015-05-29 11:58:47
阅读次数:
161
本人喜欢在网上看小说,一直使用的是小说下载阅读器,可以自动从网上下载想看的小说到本地,比较方便。最近在学习Python的爬虫,受此启发,突然就想到写一个爬取小说内容的脚本玩玩。于是,通过在逐浪上面分析源代码,找出结构特点之后,写了一个可以爬取逐浪上小说内容的脚本..
分类:
编程语言 时间:
2015-05-28 14:23:38
阅读次数:
318
综述: Spring’s web MVC framework is, like many other web MVC frameworks, request-driven, designed around a central Servlet that dispatches requests to ....
分类:
其他好文 时间:
2015-05-28 00:36:43
阅读次数:
163
1、PHP慢脚本日志间歇性的502,是后端 PHP-FPM 不可用造成的,间歇性的502一般认为是由于 PHP-FPM 进程重启造成的。在 PHP-FPM 的子进程数目超过的配置中的数量时候,会出现间歇性的502错误,如果在配置中设置了max_requests的话,超过数量也会出现502错误,而ma...
分类:
数据库 时间:
2015-05-27 07:25:20
阅读次数:
181
命令参数: -n requests Number of requests to perform//在测试会话中所执行的请求个数。默认时,仅执行一个请求 -c concurrency Number of multiple requests to make//一次产生的请求个数。默认是一次一个。 -t ...
分类:
其他好文 时间:
2015-05-26 16:02:38
阅读次数:
144
这几天为了做课程设计,想起之前学过python,所以想起要去做个爬虫,于是用上了scrapy框架,当然在这期间也了解了一下requests,但是还是没有scrapy方便,毕竟它没有处理cookie的机制,需要自己去手动处理,比较麻烦,下面我来先稍微讲讲自己对scrapy运行原理的理解:
如图我们可以看到这是scrapy的大致结构,scrapy的运行流程:
1.scrapy engine打开...
分类:
编程语言 时间:
2015-05-26 10:49:54
阅读次数:
211
最近用python做了个小crawler, 可以自动整理一些网站的内容,推送到当地文件中,做个小小的总结。
主要lib就是urllib 和 beautifulsoup.
urllib和urllib2是很方便的网页提取库,核心就是发送各种自定义的url request,然后可以返回网页内容。 最简单的函数,判定一个网页是否存在:
def isUrlExists(url):
...
分类:
编程语言 时间:
2015-05-26 10:49:11
阅读次数:
190
由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下:
import urllib
import os,re
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")
def if_st...
分类:
其他好文 时间:
2015-05-26 09:10:41
阅读次数:
229
from BeautifulSoup import *
from urlparse import urljoin
ignaorewords=set(['the','of','to','and','a','in','is','it'])
我们的搜索引擎基于关键词, 所以将连词,冠词忽略
下面的代码是爬虫, 将网页的文本数据存储到我们的sqlite中, 大家看不懂也没有关系, 知道这些函...
分类:
编程语言 时间:
2015-05-25 13:07:15
阅读次数:
275
今天在用ipython跑爬虫代码,需要导入下面这两个包,由于我的ipython里面没有,需要安装,所有用到了easy_installfromseleniumimportwebdriverfrombs4importBeautifulSoupeasy_install安装过程如下:1、首先下载setuptools,具体下载地址如下:http://pypi.python.org/pypi/setu..