现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
很多人以为i标签和em标签都只是HTML用于斜体的标签,并不知道他们有什么区别。其实对于熟悉SEO的人来说,他们的区别挺大的(普通用户略过)。i标签的作用:仅仅是为了让字体显示斜体,对于SEO没什么作用。em标签的作用:不仅可以让字体显示斜体,而且可以加强语气,告诉搜索引擎这里是重要的。
分类:
其他好文 时间:
2014-05-26 05:44:51
阅读次数:
254
计算机不能直接理解高级语言,所以需要将高级语言翻译成机器语言,翻译有两种方式:编译、解释,这两种方式主要是翻译的时间不同。
编译性语言指代码需要先编译成机器语言的二进制文件,然后再执行。这样在执行的时候就不需要再翻译了,所以执行效率高。
解释性语言指跳过编译阶段,直接运行,在运行时翻译。每次执行都需要翻译一次,所以效率较低。每种解释性语言都有对应的引擎来解释执行。有点类似于“同声翻译”,代码一边由相应的解释器“翻译”成机器语言,一边执行。脚本语言都是解释性的。...
分类:
其他好文 时间:
2014-05-26 04:52:04
阅读次数:
181
你要好好的思考,及其在百度更接近完美的时候就更要做好这些,其实这些都是影响用户体会的要素。一个成功的网站可以说它在收取利益的同时也在帮助用户。现在说说网站权重有何重要性呢?其实搜索引擎给网站(包含页面)赋予一定的威望值,对网站(含页面)威望的评价,一个网站权重越高,在搜索引擎所占的价值成分就越好,在搜索引擎排行就越好。一个网站在搜索引擎中的权重是件非常艰难的工作,因为种种要素的搅扰,影响了咱们正确...
分类:
Web程序 时间:
2014-05-26 04:42:45
阅读次数:
307
部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799
一、 开源项目
1.Lucene全文检索系统
http://lucene.apache.org和 http://www.lucene.com.cn/
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代...
分类:
Web程序 时间:
2014-05-26 04:36:55
阅读次数:
297
BULK COLLECT 可以降低 SQL 引擎到 PL/SQL 引擎的上下文交换(context
switch)次数,,从而实现数据的高速检索。”并不是限制必须一次完成。Oracle 提供了 LIMIT
子句,可以限制每次从表中获取的记录数,测试如下:SQL> select count(*) fr...
分类:
其他好文 时间:
2014-05-26 01:20:07
阅读次数:
273
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能...
分类:
其他好文 时间:
2014-05-25 23:18:41
阅读次数:
468
回顾上次写博客至今都有4个多月了,最近工作比较的忙没时间写博文。以后会多坚持写博文,与大家分享下最近遇到的问题。最近因为项目需要,研究了下用C#开发TTS。下面把大体的思路给大家说说,希望对大家有所帮助。
首先需要了解下MS的SAPI,它是微软的语音API。它包括了语音识别SR引擎和语音合成S...
分类:
其他好文 时间:
2014-05-25 19:45:38
阅读次数:
277
【A JAVA】
【B JavaEE】
【C Android】
【D 前端】
【E 大数据】
【F Oracle】
【G 云计算】
【H Linux】
【I 计算机基础】
【J PM ITIL SOA】
【K Others】
【S 搜索引擎】
【Z 方法、人文】...
分类:
其他好文 时间:
2014-05-24 21:44:27
阅读次数:
287
原理
这个漏洞实际上非常简单,ElasticSearch有脚本执行(scripting)的功能,可以很方便地对查询出来的数据再加工处理。
ElasticSearch用的脚本引擎是MVEL,这个引擎没有做任何的防护,或者沙盒包装,所以直接可以执行任意代码。
而在ElasticSearch里,默认配置是打开动态脚本功能的,因此用户可以直接通过http请求,执行任意代码。
其实官方是清楚这个漏洞...
分类:
其他好文 时间:
2014-05-24 18:04:15
阅读次数:
223