Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过...
分类:
其他好文 时间:
2014-08-07 22:47:25
阅读次数:
350
select a.商品编码,a.品名,a.规格,a.最终进价,c.curcsprc,d.qtyfrom lhdh201408 aleft join lhspm b on a.商品编码=b.pluidleft join 商品码 c on b.barcode=c.bcdleft join (select...
分类:
其他好文 时间:
2014-08-07 22:02:46
阅读次数:
187
例题:给定两个大文件,各含有50亿条url,要求利用4G内存快速找出共同的url解答:假设两个文件为A和B,4G内存有32G位,可以表示5G的url。本文采用bloom filter解答:首先简单介绍一下bloom filter的思想,其核心是:位数组;K个hash函数。通过对大量数据处理,通过k个...
分类:
其他好文 时间:
2014-08-07 21:49:20
阅读次数:
183
insert into xbxsselect * from [192.168.1.100].[scmis].[dbo].mdxsdelete from [192.168.1.100].[scmis].[dbo].mdxsinsert into dbxsselect * from [192.168.....
分类:
其他好文 时间:
2014-08-07 21:48:20
阅读次数:
213
declare @a datetime set @a='20140630'while @a>='20140601'beginINSERT INTO MDXSSELECT PLUNO=A.PLUNO, PLUNAME=MAX(A.PLUNAME), QTY=SUM(A.QTY), NET=SUM(A....
分类:
其他好文 时间:
2014-08-07 21:44:20
阅读次数:
255
今天很不小心点开百度新闻主页面,以及360新闻主页面,分别有一篇文章,但是针对百度诉360违反Robots协议案。标题分别是《百度诉360违反爬虫协议案宣判:360赔偿70万》 《法院判定360搜索可抓取百度内容》。显然,两者报道的最终法院判决结果截然相反。请看下面截图:
显然,双方都在掩饰自己的过错,宣扬自己的长处。更搞笑的是双方互相挖苦,百度发文《360律师要求百度感谢被...
分类:
其他好文 时间:
2014-08-07 19:11:20
阅读次数:
280
STL中的map容器的一点总结
一、关于map的介绍
map是STL的一个容器,和set一样,map也是一种关联式容器。它提供一对一(其中第一个可以称为关键字,每个关键字只能在map中出现一次,第二个可能称为该关键字的值)的数据处理能力,由于这个特性,有助于我们处理一对一数据。这里说下map内部数据的组织,map内部是自建一颗红黑树(一种非严格意义上的平衡二叉树),这颗树具有对数据自动...
分类:
其他好文 时间:
2014-08-07 19:01:06
阅读次数:
249
SELECT * FROM LHDH201408update LHDH201408 set 促销进价=原进价 where 促销进价 is nullupdate LHDH201408 set 促销配销价=促销进价 where 促销配销价 is nullupdate LHDH201408 set 公司让...
分类:
其他好文 时间:
2014-08-07 18:15:50
阅读次数:
202
DomainNameServer监听tcp53和udp53端口。把一种名称解析为另一种名称,字串型名称与数据型名称。解析时把用户提供的名称,查询解析库,得到另外一名称。查询,把解析后的名称返还用户。查询分为两种存储名称与地址对应表格式。文本文件,对大量数据处理难以应付。但在bind中速..
分类:
其他好文 时间:
2014-08-07 07:23:10
阅读次数:
445