参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
在这里,我对于项目提出功能导航系统。即为每个导航地点分组,按功能属性统计并罗列在一起,在导航页面提供目的性查询,让客户通过勾选想要进行的活动来提供目的地和导航路线。并将各地点在功能搜索页面罗列出来并给出具体坐标。如:餐饮,上课,运动,购物,出行,标志建筑,专业分属等Need:需求方面,直接从导航的....
分类:
其他好文 时间:
2014-04-28 16:58:15
阅读次数:
595
1、认识需要配置的环境变量 1). PATH:
作用是指定命令搜索路径,打开/etc/environment可以看到PATH变量的值,该变量包含了一系列的路径。那些路径都是一些经常使用的系统命令的目录地址,如:、/sbin、/bin等。在bash终端执行命令时,系统会自动到PATH变量所指定的路.....
分类:
编程语言 时间:
2014-04-28 16:50:25
阅读次数:
659
1. find find是最常见和最强大的查找命令,你可以用它找到任何你想找的文件。
find的使用格式如下: $ find - : 所要搜索的目录及其所有子目录。默认为当前目录。 - : 所要搜索的文件的特征。 - :
对搜索结果进行特定的处理。 如果什么参数也不加,find...
分类:
其他好文 时间:
2014-04-28 15:33:09
阅读次数:
602
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为:sed
[-nefri] ‘command’ 输入文本常用选项:-n∶使用安静(silent)模式。在一般 sed 的用法中,...
分类:
系统相关 时间:
2014-04-28 15:25:18
阅读次数:
578
本周参加了场上海的GDG活动。本次活动的主办方 先介绍一下:GDG
Shanghai上海GDG(Google开发者社区,以前是GTUG, Google技术用户组)
,众所周知,Google的搜索引擎、地图、GA,Android等各项技术,在世界范围内有大量开发者和用户,为了满足学习和使用Google...
分类:
其他好文 时间:
2014-04-28 15:09:29
阅读次数:
642
一、NFS的配置
NFS主要用于Libera系统的软件安装,数据存储等。通常NFS安装于一台Linux
PC机上,在Libera的嵌入式系统上挂载该远程文件系统,可以方便的为Libera安装和更新软件,以及导出采集到的数据。1、Ubuntu默认没有nfs服务,需要自己安装nfs服务
$sudo a....
分类:
其他好文 时间:
2014-04-28 15:05:37
阅读次数:
484
前言 在前文中,讲述了一个可靠信号的示例。它分成几个步骤组成( 请参考前文 )。在 Linux
系统编程中,有个方法可以将这些步骤给集成起来,让我们使用起来更加的方便。那就是调用 sigaction 函数。sigaction 函数 原型:int
sigaction (int signo, con.....
分类:
其他好文 时间:
2014-04-28 14:34:18
阅读次数:
567
sudo update-grub运行结果:Generating grub configuration
file ...Warning: Setting GRUB_TIMEOUT to a non-zero value when
GRUB_HIDDEN_TIMEOUT is set is no lon...
分类:
其他好文 时间:
2014-04-28 13:01:32
阅读次数:
1053
说起共享内存,一般来说会让人想起下面一些方法:1、多线程。线程之间的内存都是共享的。更确切的说,属于同一进程的线程使用的是同一个地址空间,而不是在不同地址空间之间进行内存共享;2、父子进程间的内存共享。父进程以MAP_SHARED|MAP_ANONYMOUS选项mmap一块匿名内存,fork之后,其...
分类:
系统相关 时间:
2014-04-28 12:30:07
阅读次数:
720