当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问
的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才
需要使用rob...
分类:
其他好文 时间:
2014-06-09 22:51:30
阅读次数:
342
自己的站点经常被搜索引擎爬到,想知道搜索引擎和来访者都对哪些内容比较感兴趣,于是写了一个简单的日志记录"系统",来记录来访者的信息。分为三个文件,record.php,log.php,conn.phpconn.php是数据库连接文件,调用该文件返回一个mysql的数据库读写接口;log.php是后台...
分类:
Web程序 时间:
2014-06-09 22:50:13
阅读次数:
564
一.HAProxy简介 HAProxy提供高可用性
、负载均衡以及基于TCP和HTTP应用的代理,它是免费、快速并且可靠的一种解决方案。HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。
HAProxy运行在当前的硬件上,完全可以支持数以万计 的并发连接。并且....
转载请注明出处!原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006有时候因为种种原因,我们须要採集某个站点的数据,但因为不同站点对数据的显示方式略有不同!本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据;(2)...
分类:
编程语言 时间:
2014-06-09 14:35:31
阅读次数:
266
1 self.GetGroup = function (subSiteurl) { 2 var
subClientContent = new SP.ClientContext(subSiteurl); //获取当前站点 3 var ...
分类:
其他好文 时间:
2014-06-09 00:11:33
阅读次数:
250
今天去服务器安装了个.net 4.0
framework(原本有1.0和2.0的),配置好站点后,选择版本为4.0,访问出错,错误代码如下Server Application Unavailable
The web application you are attempting to access o...
分类:
移动开发 时间:
2014-06-08 18:49:06
阅读次数:
384
第一、爬虫及其行为方式
1.根集
2.连接的提取和相对链接的标准化
从页面提取出链接,然后把相对链接转化为绝对链接
3.避免环路的出现
4.循环和复制
5.记录爬过得链接
树和散列表有损的存在位图集群和索引
6.规范URL
7.避免循环和重复
规范URL广度优先的爬行节流:限制一段时间内机器人可以从一个WEB站点获取的页面的数量限制URL的大小URL/站点黑...
分类:
Web程序 时间:
2014-06-08 17:18:02
阅读次数:
264
如何登陆AD认证的sharepoint站点,通过一个脚本可以实现。...
分类:
其他好文 时间:
2014-06-08 16:48:04
阅读次数:
181
本文在SharePoint站点添加Deep Zoom Image,给站点带来乐趣,使浏览者流连忘返。^_^....
分类:
其他好文 时间:
2014-06-08 15:18:25
阅读次数:
214
以Windows8 为例,介绍一下搭建 FTP服务器的步骤:
1、控制面板->程序->启用或关闭Windows功能,将下图所示的复选框选中
2、右键计算机->管理->服务和应用程序,选择Internet 信息服务 IIS 管理,如下图所示添加FTP站点
3、
4、ip地址填上本机地址,端口默认21,需要ssl,证书选择IIS Express Development Ce...