垂直搜索引擎研发经验总结什么是垂直搜索引擎? 垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所须要的数据,再进行二次处理和索引,最后依据用户提交的请求,返回搜索结果。 与普通的网页搜索引擎相比,它们最大的差别是对网页信息进行了结.....
分类:
其他好文 时间:
2014-07-16 23:20:16
阅读次数:
253
库 库,故名思议,是存放东西的地方,其中存放的东西可以被多个人公用。程序中借用库的概念,描述将代码进行抽取,这种代码被大多数程序使用,其过程具有一定的模块化、封装、抽象的特征。 按照库的使用方式, 静态库 和 动态库。不管怎样方式使用, 首先库的概念体现出代码逻辑上公共抽象。 有篇博文,做了介...
分类:
编程语言 时间:
2014-07-07 18:56:22
阅读次数:
273
垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:
其他好文 时间:
2014-07-04 08:45:56
阅读次数:
295
一个完整的项目构建过程通常包括清理、编译、测试、打包、集成测试、验证、部署等步骤,Maven从中抽取了一套完善的、易扩展的生命周期。Maven的生命周期是抽象的,其中的具体任务都交由插件来完成。Maven为大多数构建任务编写并绑定了默认的插件,如针对编译的插件:maven-compiler-pl.....
分类:
其他好文 时间:
2014-07-02 21:27:23
阅读次数:
220
多对一 关联映射 --- many-to-one 场景:用户和组;从用户角度来,多个用户属于一个组(多对一 关联) 使用hibernate开发的思路:先建立对象模型(领域模型),把实体抽取出来。 目前两个实体:用户和组两个实体,多个用户属于一个组,那么一个用户都会对应于一个组,所以用户实体中应该有一...
分类:
系统相关 时间:
2014-07-02 20:42:17
阅读次数:
387
YUM介绍:RPM前端工具,在将rpm包依赖关系做成数据库的前提下,自动查找依赖关系,并从某个仓库(repository)下载到所需要的安装包并在本地完成安装;在客户端,用yum可以安装在本地配置文件中可以找到的仓库,通过仓库的元数据(仓库(repository)中的rpm包的rpm信息被抽取..
分类:
系统相关 时间:
2014-07-01 06:02:42
阅读次数:
412
shell之文本过滤(正则表达式)分类:linux shell脚本学习2012-09-14 12:59213人阅读评论(0)收藏举报当从一个文件或命令输出中抽取或过滤文本时,可以使用正则表达式(R E) ,正则表达式是一些特殊或不很特殊的字符串模式的集合。^ 只只匹配行首$ 只只匹配行尾* 只一个单...
分类:
其他好文 时间:
2014-06-30 22:58:45
阅读次数:
224
shell之文本过滤(awk)分类:linux shell脚本学习2012-09-19 15:531241人阅读评论(0)收藏举报shell正则表达式脚本任务语言如果要格式化报文或从一个大的文本文件中抽取数据包,那么awk可以完成这些任务。为了获取所需信息,文本必须格式化,也就是说要使用域分隔符来划...
分类:
其他好文 时间:
2014-06-30 21:15:20
阅读次数:
324
模板方法差不多是Java设计模式中除单例之外的另一种非常简单也是我们在写程序时非常常用的方法,一些重要复杂的算法,可以将核心算法设计为模板方法,周边相关细节部分则有子类来实现。特别是在重构时,可以将子类的代码抽取到父类中,然后通过父类的引用指向子类的对象,也就是用一个句柄,来约束其行为。...
分类:
编程语言 时间:
2014-06-30 00:38:24
阅读次数:
321
一、数据挖掘数据挖掘是运用计算机及信息技术,从大量的、不全然的数据集中获取隐含在当中的实用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web...
分类:
Web程序 时间:
2014-06-29 19:45:59
阅读次数:
452