通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎
分类:
编程语言 时间:
2020-04-13 22:44:50
阅读次数:
125
LINK: "Removing Robots" 没想到 自闭。 考虑了一个容斥 发现不合法方案难以计算。 就算可以计算也几乎是n^2的做法。 考虑dp 左边会对右边产生影响 所以考虑先dp右边的再考虑左边的。 至于dp 自然是f[i]表示这个i~n这么多点的方案数。 设 i向右第一个影响不到的点为w ...
分类:
其他好文 时间:
2020-04-12 20:47:37
阅读次数:
67
[CISCN2019 华东南赛区]Double Secret 首页面是比较无奈的 我进入了robots.txt发现了毫无作用的信息 有的大佬猜到了目录,我是扫出来的 输入几个参数试试,发现他被加密了,毫无思路自己还跑了1到128的脚本发现没什么规律。 当你输入一堆奇怪的东西 比如:123123ads ...
分类:
其他好文 时间:
2020-04-07 15:48:54
阅读次数:
176
meta是用来在HTML文档中模拟HTTP协议的响应头报文。META标签是HTML语言HEAD区的一个辅助性标签,它位于HTML文档头部的<HEAD>标记和<TITLE>标记之间,它提供用户不可见的信息。meta标签通常用来为搜索引擎robots定义页面主题,或者是定义用户浏览器上的cookie;它 ...
分类:
Web程序 时间:
2020-04-06 15:24:02
阅读次数:
83
一.进入实验 1.先用 dirsearch 去扫描目录 python dirsearch.py -u "http://111.198.29.45:33988/" -e * 根据扫描的结果我们发现了robots.txt,user.php,view.php等等,扫完之后先不急着去访问,在进入实验环境后, ...
分类:
其他好文 时间:
2020-04-03 23:40:48
阅读次数:
143
[SCTF2019]Flag Shop 将回日月先反掌;欲作江河惟画地 考点: ruby审计 cookie伪造; 记录一道SCTF的题目,读取robots.txt 发现/filebak 进行读取。是ruby; 抓包进行测试,发现每一次工作之后cookie都会发生改变,结合源码,发现cookie加密方 ...
分类:
其他好文 时间:
2020-04-03 12:25:59
阅读次数:
138
# 聚焦爬虫的设计思路:1.确定url, 发起请求, 获取响应 > 抓包, requests, urllib, aiohttp, scrapy2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery3.数据持久化 --> 文件系统, 数据库 --> MySQL, Mong ...
分类:
其他好文 时间:
2020-03-31 14:48:18
阅读次数:
81
"CF 官网链接" "CF.ML 链接" $N \le 5000, Q \le 10^5$ $N \le 3 \times 10^5, Q \le 3 \times 10^5$ 思路 这是一道二维数点题。 只考虑 $dir = 1$,记一个三角形直角顶点 $(p, q)$ ,直角边长 $r$ 考虑斜 ...
分类:
其他好文 时间:
2020-03-30 09:32:28
阅读次数:
61
常用的一些web目录扫描工具 0X00目录扫描工具的作用 网站目录和敏感文件扫描是网站测试中最基本的手段之一。如果通过该方法发现了网站后台,可以尝试暴库、SQL注入等方式进行安全测试;如果发现敏感目录或敏感文件,能帮我们获取如php环境变量、robots.txt、网站指纹等信息;如果扫描出了一些上传 ...
分类:
Web程序 时间:
2020-03-29 11:13:38
阅读次数:
650
导航 (返回顶部) 1. spider 1.1 robots.txt 1.2 ads.txt 1.3 security.txt 1.4 blogger.com 上的 robots.txt和ads.txt 2. 爬虫软件列表 2.1 介绍一些比较方便好用的爬虫工具和服务 2.2 33款可用来抓数据的开 ...
分类:
Web程序 时间:
2020-03-27 18:26:01
阅读次数:
379