一、AWVS Web Scanner Web 扫描器 Sit Crawler 网站爬行 Target Finder 可扫描指定网段,开放指定端口的服务器 Subdomain Scanner 子域名扫描 Blind SQL Injector 盲注手工检测 HTTP Editor HTTP信息查看 HT ...
分类:
其他好文 时间:
2016-05-12 01:41:40
阅读次数:
169
1. 引言 在Github 上搜索下Web Crawler 有上千个开源的项目,但是C#的仅仅只有168 个,相比于Java 或者Python 确实少的可怜。如果按照Stars 排名。可以看到 排在第一位的是一个叫Abot的爬虫。通过这两天的测试,发现Abot是一个非常轻巧的爬虫。非常适合.Net程... ...
分类:
其他好文 时间:
2016-05-10 18:21:35
阅读次数:
336
搭建heritrix环境(windows环境) 使用方式一:直接搭建hertrix 软件下载网址: http://sourceforge.net/projects/archive-crawler/files/archive-crawler (heritrix 1.x)/1.14.4/ 下载好压缩包后 ...
分类:
其他好文 时间:
2016-05-08 01:12:21
阅读次数:
226
A - Anniversary Firework
Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u
Submit Status Practice URAL
1776
Appoint description:
System Crawler (2016-05-06)
...
分类:
其他好文 时间:
2016-05-07 11:03:56
阅读次数:
279
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
一. 实例
为了说明Bloom Filter存在的重要意义,举一个实例:
假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。...
分类:
其他好文 时间:
2016-05-07 07:39:41
阅读次数:
219
Hawk-数据抓取工具:简明教程 Hawk: Advanced Crawler& ETL tool written in C#/WPF 1.软件介绍 HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽,快速地进行生成,过滤,转换等操 ...
分类:
其他好文 时间:
2016-05-03 20:27:59
阅读次数:
829
大规模网络搜索的设计大规模搜索引擎的逻辑结构
上图来自1998年Google两个创始人发表的论文。
crawler:爬虫,从互联网上获取文档信息
index:读取这些信息,并记住哪些单词出现在哪些文档中,称为索引
search:使关键词查询成为可能,并对查询结果进行排序
Google的独特性在于:使用anchor text描述目标文档,并利用文档之间的链接对文档的重要性排序,这就是PageRank...
分类:
其他好文 时间:
2016-04-29 18:48:20
阅读次数:
231
大规模网络搜索的设计大规模搜索引擎的逻辑结构
上图来自1998年Google两个创始人发表的论文。
crawler:爬虫,从互联网上获取文档信息
index:读取这些信息,并记住哪些单词出现在哪些文档中,称为索引
search:使关键词查询成为可能,并对查询结果进行排序
Google的独特性在于:使用anchor text描述目标文档,并利用文档之间的链接对文档的重要性排序,这就是PageRank...
分类:
其他好文 时间:
2016-04-26 21:02:49
阅读次数:
196
M - Meeting
Time Limit:6000MS Memory Limit:262144KB 64bit IO Format:%I64d & %I64u
Submit Status Practice HDU
5521
Appoint description:
System Crawler (2016-04-18)
Description...
分类:
其他好文 时间:
2016-04-22 19:54:09
阅读次数:
356
C - 不容易系列之一 Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit Status Practice HDU 1465 Appoint description: System Crawler (
分类:
其他好文 时间:
2016-03-11 23:56:25
阅读次数:
338