nodejs框架express4.2 简单入门...
分类:
Web程序 时间:
2014-05-26 06:16:27
阅读次数:
324
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
详细可参考
(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》
(2)【搜索引擎基础知识1】搜索引擎的技术架构
(3)【搜索引擎基础知识2】网络爬虫的介绍
1、...
分类:
其他好文 时间:
2014-05-26 05:45:24
阅读次数:
266
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
1. 网络爬虫本质就是浏览器http请求。
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统...
分类:
其他好文 时间:
2014-05-26 05:26:52
阅读次数:
358
C++编写nodejs扩展实战
之前有用PHP写过根据IP地址查询IP归属地,后来改用C语言编写,效率果然大幅度提高,然后转化为PHP的扩展.
想起之前有过使用手机号码查询号码归属地,最近又有在研究nodejs,于是就使用C++编写了nodejs的扩展....
分类:
编程语言 时间:
2014-05-26 05:22:42
阅读次数:
374
在开发一个复杂的应用程序的时候,我们需要把各个功能拆分、封装到不同的文件,在需要的时候引用该文件。没人会写一个几万行代码的文件,这样在可读性、复用性和维护性上都很差,几乎所有的编程语言都有自己的模块组织方式,比如Java中的包、C#中的程序集等,node.js使用模块和包来组织,其机制实现参照了CommonJS标准,虽未完全遵守,但差距不大,使用起来非常简单。
在node.js中模块与文件是...
分类:
Web程序 时间:
2014-05-26 03:45:20
阅读次数:
366
Originated
From:http://blog.csdn.net/pi9nc/article/details/9734437#comments[Python]网络爬虫(一):抓取网页的含义和URL基本构成一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一...
分类:
编程语言 时间:
2014-05-25 23:58:31
阅读次数:
584
Nodejs下运行Javascript访问二维数组和控制台输出示例...
分类:
Web程序 时间:
2014-05-25 10:12:55
阅读次数:
202
1、直接运行测试文件
下面的内容为批处理文件node-run-app.bat中的内容,批处理命令中NODE_PATH为Node.js的安装路径,也就是有node.exe文件的路径,在初次使用时设置。文件放在自定义项目路径,如使用express 生成的项目。app.js为待测试的Node.js 文件。双击该批处理文件即可运行app.js程序。
[plain]...
分类:
移动开发 时间:
2014-05-25 07:14:30
阅读次数:
433
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349