参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
在这里,我对于项目提出功能导航系统。即为每个导航地点分组,按功能属性统计并罗列在一起,在导航页面提供目的性查询,让客户通过勾选想要进行的活动来提供目的地和导航路线。并将各地点在功能搜索页面罗列出来并给出具体坐标。如:餐饮,上课,运动,购物,出行,标志建筑,专业分属等Need:需求方面,直接从导航的....
分类:
其他好文 时间:
2014-04-28 16:58:15
阅读次数:
595
1、认识需要配置的环境变量 1). PATH:
作用是指定命令搜索路径,打开/etc/environment可以看到PATH变量的值,该变量包含了一系列的路径。那些路径都是一些经常使用的系统命令的目录地址,如:、/sbin、/bin等。在bash终端执行命令时,系统会自动到PATH变量所指定的路.....
分类:
编程语言 时间:
2014-04-28 16:50:25
阅读次数:
659
1.电脑版(1).python安装目录中\Lib\site-packages\下建立*.pth文件,写入模块路径(2).添加环境变量:变量名:pythonpath;变量值:模块(文件夹)路径,若有多个,用半角分号";"隔开2.手机版在resource\site.py文件中添加代码段importsys...
分类:
编程语言 时间:
2014-04-28 08:43:14
阅读次数:
794
近期很多文章都提到了User-Agent (UA)
字符串,但大部分网友都不知道这个东西有什么用处。其实简单的说User-Agent就是客户端浏览器等应用程序使用的一种特殊的网络协议,在每次浏览器(邮件客户端/搜索引擎蜘蛛)进行
HTTP 请求时发送到服务器,服务器就知道了用户是使用什么浏览器(邮件...
分类:
其他好文 时间:
2014-04-28 04:25:14
阅读次数:
649
在admin页面,输入相关内容后,会返回xml格式的内容。说明如下: 0 3 on 10 0
monitor 2.2 0.5747526 ...
分类:
其他好文 时间:
2014-04-27 22:10:48
阅读次数:
600
1、 solr基础因为 Solr 包装并扩展了
Lucene,所以它们使用很多相同的术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr
进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。在 Sol...
分类:
其他好文 时间:
2014-04-27 21:38:00
阅读次数:
607
原文地址:http://www.php100.com/html/webkaifa/database/Mysql/2010/0409/4279.html索引是快速搜索的关键。MySQL索引的建立对于MySQL的高效运行是很重要的。下面介绍几种常见的MySQL索引类型。在数据库表中,对字段建立索引可以大...
分类:
数据库 时间:
2014-04-27 21:16:01
阅读次数:
2114
1.先对文件内容排序:cat 1.txt |sort > 2.txt 保存到2.txt中
2.使用vim打开2.txt 执行替换命令:
替换空格:%s/ //g
替换tab:%s/^I//g (注意:^I 是直接按键盘是的tab键)
替换$: %s/^M//g (注意:^M 是按ctrl+v 再按Enter键)
3.cat 2.txt | uniq > 3.txt
本文为...
分类:
其他好文 时间:
2014-04-27 19:07:00
阅读次数:
544
1.复制粘贴操作 vim有12个粘贴板,分别是0、1、2、...、9、a、“、+;
用:reg命令可以查看各个粘贴板里的内容。在vim中简单用y只是复制到“(双引号)粘贴板里,同样用p粘贴的也是这个粘贴板里的内容要将vim的内容复制到某个粘贴板,需要退出编辑模式,进入正常模式后,选择要复制的内容.....
分类:
其他好文 时间:
2014-04-27 16:51:17
阅读次数:
585