simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
分类:
其他好文 时间:
2014-05-26 06:38:50
阅读次数:
258
随着移动互联网以及云计算技术的成熟和普及,越来越多的移动端和云端应用到企业当中,终端用户日益频繁的依赖移动应用完成关键的交易和服务。这样会给企业IT运维管理带来很大难度,特别是对于那些成长型企业而言,随着业务的快速增长,让IT性能管理变得更加具有挑战性。因为IT性能的降低,会直接导致客户流失、成本攀...
分类:
移动开发 时间:
2014-05-26 06:19:22
阅读次数:
226
昨天,京东在美国上市了,你知道吗? 美国当地时间5月22日,京东在美国的纳斯达克成功上市,市值将近300亿美元,成为中国继腾讯和百度之后的第三大互联网上市公司。有趣的是,今年也是其创始人刘强东40岁的生日。 作为京东的一位普通用户,我想说一下最近我和它的两次“亲密接触”。 第一次“亲密接触”,我使用安卓手机客户端在京东上买了两本书,是第一天晚上八点多下的单...
分类:
其他好文 时间:
2014-05-26 06:12:35
阅读次数:
315
目前在网银、支付、团购等领域出现了大量的钓鱼网站,有没有方式可以在线实时监控并发现可疑钓鱼网站的技术?
互联网上每时每刻都会有新的域名、新的网站诞生。就是这种的互联网的开放性,使得互联网世界变得多姿多彩,精彩万分。但是这样对于监控钓鱼网站是非常不利的,尽管我们国家对于网站都要求备案,从理论上来说备案制度可以有效的避免假网站和欺诈性网站的发生,但是实际的情况是域名可以在未备案的情况下直接解...
分类:
Web程序 时间:
2014-05-26 05:36:44
阅读次数:
265
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
1. 网络爬虫本质就是浏览器http请求。
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统...
分类:
其他好文 时间:
2014-05-26 05:26:52
阅读次数:
358
以上这张图我不记得是在哪个PPT里看到,一见钟情,极高的认同感,我也用在了很多的讲座或会议PPT里,因此本文的大观点并非我的原创,我只是用自已的理解来阐述这些观点,显然这是一个大家熟悉的金字塔结构,由下到上逐渐缩小,真正能走到塔尖的组织并不多,创业公司的创立和发展也要学习金字塔的构建模式,首先把“塔基”建好,然后逐层建设,这样的结构能让公司在激烈的市场竞争中保持不败,并不断发展壮大。 (1) ...
分类:
移动开发 时间:
2014-05-25 01:54:01
阅读次数:
367
12306网站做得验证码真的好烂,这种产品经理、开发人员都是吃什么长大的啊!都不用脑子想问题吗?直接上图,免得说冤枉它了。 使用一点都不方便。优秀的互联网产品经理啊,救救12306吧!...
分类:
Web程序 时间:
2014-05-25 00:21:14
阅读次数:
338
随着移动互联网的飞速发展,手机的便携性、娱乐性日益凸显。众多移动应用随着智能手机的发展赢得消费者的热捧,成为手机用户再也离不开的小伙伴。但是,由于近几年打包党猖獗,很多热门的App被盗取源码、植入恶意病毒、添加广告后通过二次打包成为盗版产品进入渠道,不仅直接导致开发者的劳动果实被窃取,创意被剽窃,利益受到严重损害,更导致App用户体验下降,或造成直接经济损失。...
分类:
移动开发 时间:
2014-05-24 23:40:48
阅读次数:
497
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349
一、实验目的:1.跨越互联网加密复制mysql基于SSL加密连接,为安全从服配置证书,从服拿账号到主服复制时,必须得到主服验证。双方建立SSL会话。二、实验架构在分布式架构中,时间必须同步主节点:station20:192.168.1.20从节点:station21:192.168.1.21三、实验步骤1.建立ssh互..
分类:
数据库 时间:
2014-05-24 16:49:58
阅读次数:
749