第十二天起点:1.手把手教你做关键词匹配项目(搜索引擎)---- 第一天回顾:11.手把手教你做关键词匹配项目(搜索引擎)---- 第十一天上回说到,关键词应用需求为:通过淘宝API取到的宝贝标题以及宝贝属性,匹配出适合该宝贝的关键词.初期考虑以下因素:适合人群的匹配 :男装 (匹配出来的关键词不能...
分类:
其他好文 时间:
2014-08-20 14:02:42
阅读次数:
151
1.静态网页和动态网页 刚开始一直概念很模糊,分不清,今天晚上看视频,查资料终于弄明白点儿了。静态网页和动态网页的区别可以说是使用语言的区别。 静态网页:使用语言—html,不包含服务器运行代码;没有数据库,数据量大时,制作和维护困难;访问速度快;内容稳定,容易被搜索引擎检索;不含程序,...
分类:
Web程序 时间:
2014-08-19 23:41:15
阅读次数:
431
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:
其他好文 时间:
2014-08-19 18:41:15
阅读次数:
205
自从绿萝算法推出以后,百度对外链的打击力度更大了,每一次搜索引擎算法调整之后,网站的收录和链接数量都会有不同程度的变化。网站外链数量的变化可以从哪几个方面去考虑呢,一起来分析一下。首先搜索引擎会对过期了的网站来一个大扫除,删除一部分收录或者反链。反链页面权重高的话,那么这个反链会长久的在搜索引擎.....
分类:
Web程序 时间:
2014-08-18 23:21:53
阅读次数:
353
系统环境#cat/etc/redhat-release
CentOSrelease6.4(Final)
#uname-a
Linuxlocalhost.localdomain2.6.32-358.el6.x86_64#1SMPFriFeb2200:31:26UTC2013x86_64x86_64x86_64GNU/Linux1.下载软件包#curl-Ohttps://download.elasticsearch.org/logstash/logstash/logstash-1.4.2.tar..
分类:
其他好文 时间:
2014-08-18 18:51:43
阅读次数:
289
无意间发现这个问题,无意间发现是校友~要有稳定的流量来源,首先有一点是要有稳定的原创新内容,刚大概看了一下你的网站,今年的三四月份更新的内容比较多,再之后更新的内容就很少了。至于为什么讲原创呢,搜索引擎对于原创内容的抓取是要高于非原创的,这样网站在搜索引擎的排名也会比较高。第二点,首页上的内容要放最...
分类:
Web程序 时间:
2014-08-18 15:50:03
阅读次数:
201
如何让搜索引擎搜到自己的博客文章或许你已经有开了自己的博客了,或许也在博客上放了广告等待广告费支付。但是流量却迟迟不上去。不要着急,试着让搜索引擎收录你的博客。本文讲介绍如何让博客被搜索引擎收录。让搜索引擎收录的最直接办法就是主动提交给搜索引擎,(因为不提交也可能收录,质量好又有外链...
分类:
其他好文 时间:
2014-08-18 10:39:23
阅读次数:
269
自然语言处理(1)之NLTK与PYTHON题记: 由于现在的项目是搜索引擎,所以不由的对自然语言处理产生了好奇,再加上一直以来都想学Python,只是没有机会与时间。碰巧这几天在亚马逊上找书时发现了这本《Python自然语言处理》,瞬间觉得这对我同时入门自然语言处理与Python有很大的帮助。所以最...
分类:
编程语言 时间:
2014-08-18 00:08:23
阅读次数:
845
我想绝大数的国人用的搜索工具都是百度吧,甚至我们也常常Google一下baidu,或者baidu一下Google,甚至是有段时间,Google到百度后,打开网站却是跳转到Google,不过现在Google退出了中国市场,所以目前国内搜索引擎还是百度一家独大,这两个大公司之间的竞争就不谈了,毕竟离.....
分类:
其他好文 时间:
2014-08-17 21:09:22
阅读次数:
303
1.solr原理:我本人的理解:solr是为解决高性能的全文索引而出现的,它将用户输入的关键字进行智能分解,分解成一个个词,过滤掉一些多余的停词及空格等,比如,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这...
分类:
其他好文 时间:
2014-08-17 18:26:52
阅读次数:
200