概念:模块(Module)和包(Package)是Node.js最重要的支柱。
开发一个具有一定规模的程序不可能只用一个文件,通常需要把各个功能拆分、分装、然后组合起来。模块正式为了实现这种方式而诞生,在浏览器JavaScript中,脚本模块的拆分和组合通常使用HTML的script标签来实现,.....
分类:
Web程序 时间:
2014-05-26 20:33:20
阅读次数:
356
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
分类:
编程语言 时间:
2014-05-26 15:41:47
阅读次数:
394
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:
编程语言 时间:
2014-05-26 13:13:56
阅读次数:
318
前面展示了使用nodejs技术和jqm来搭建一个简单的支持CRUD操作应用的服务端部分(参见:nodejs
+ jquery
Mobile构建一个简单的移动web(服务端)),服务端采用nodejs技术实现,使用了mongodb数据库和轻量级web开发框架expressJS,
路由使用restful...
分类:
移动开发 时间:
2014-05-26 13:07:21
阅读次数:
356
robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:
其他好文 时间:
2014-05-26 13:04:58
阅读次数:
228
作者本身也是刚接触nodejs,所以在知识面方面还存在很多漏洞。nodejs下载地址:http://nodejs.org/在Window下面安装的(msi文件),就是纯自动的,选择添加到环境变量和安装路径就ok了。可以打开cmd命令台,通过输入命令
node 进入编译模式,做一些短代码的测试。一般情...
分类:
Web程序 时间:
2014-05-26 11:04:17
阅读次数:
465
Insert title here定向数据爬虫和搜索引擎(Directional
Spider)设计(一) ——
元素分析前言页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据。因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索。
简单的说这个...
分类:
其他好文 时间:
2014-05-26 07:28:45
阅读次数:
225
simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
分类:
其他好文 时间:
2014-05-26 06:38:50
阅读次数:
258
最近有点着迷Python,学习基本语法之后,首先从爬虫开始,看了《使用python登录人人网并发表状态》一文后,很感兴趣,然后又曾经苦于人人网聊天记录删除的繁琐,于是决定写一个聊天记录一键删除的小脚本,好啦,废话不多说:#encoding:utf-8import
urllib2, urllib, c...
分类:
编程语言 时间:
2014-05-24 09:35:03
阅读次数:
390
Visual Studio 2012Visual Studio Express 2012 for
Web与 的Visual Studio 2010 Visual Studio Web发布更新 与 的Visual Web Developer 2010
Express Visual Studio Web...
分类:
Web程序 时间:
2014-05-24 09:15:29
阅读次数:
307