码迷,mamicode.com
首页 >  
搜索关键字:robots    ( 529个结果
python学习之爬虫理论总结
通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎
分类:编程语言   时间:2020-04-13 22:44:50    阅读次数:125
ABC 158 F - Removing Robots dp 单调栈
LINK: "Removing Robots" 没想到 自闭。 考虑了一个容斥 发现不合法方案难以计算。 就算可以计算也几乎是n^2的做法。 考虑dp 左边会对右边产生影响 所以考虑先dp右边的再考虑左边的。 至于dp 自然是f[i]表示这个i~n这么多点的方案数。 设 i向右第一个影响不到的点为w ...
分类:其他好文   时间:2020-04-12 20:47:37    阅读次数:67
[CISCN2019 华东南赛区]Double Secret
[CISCN2019 华东南赛区]Double Secret 首页面是比较无奈的 我进入了robots.txt发现了毫无作用的信息 有的大佬猜到了目录,我是扫出来的 输入几个参数试试,发现他被加密了,毫无思路自己还跑了1到128的脚本发现没什么规律。 当你输入一堆奇怪的东西 比如:123123ads ...
分类:其他好文   时间:2020-04-07 15:48:54    阅读次数:176
HTML中meta标签详解;property=og标签详解
meta是用来在HTML文档中模拟HTTP协议的响应头报文。META标签是HTML语言HEAD区的一个辅助性标签,它位于HTML文档头部的<HEAD>标记和<TITLE>标记之间,它提供用户不可见的信息。meta标签通常用来为搜索引擎robots定义页面主题,或者是定义用户浏览器上的cookie;它 ...
分类:Web程序   时间:2020-04-06 15:24:02    阅读次数:83
XCTF fakebook
一.进入实验 1.先用 dirsearch 去扫描目录 python dirsearch.py -u "http://111.198.29.45:33988/" -e * 根据扫描的结果我们发现了robots.txt,user.php,view.php等等,扫完之后先不急着去访问,在进入实验环境后, ...
分类:其他好文   时间:2020-04-03 23:40:48    阅读次数:143
[SCTF2019]Flag Shop
[SCTF2019]Flag Shop 将回日月先反掌;欲作江河惟画地 考点: ruby审计 cookie伪造; 记录一道SCTF的题目,读取robots.txt 发现/filebak 进行读取。是ruby; 抓包进行测试,发现每一次工作之后cookie都会发生改变,结合源码,发现cookie加密方 ...
分类:其他好文   时间:2020-04-03 12:25:59    阅读次数:138
爬虫的基本知识
# 聚焦爬虫的设计思路:1.确定url, 发起请求, 获取响应 > 抓包, requests, urllib, aiohttp, scrapy2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery3.数据持久化 --> 文件系统, 数据库 --> MySQL, Mong ...
分类:其他好文   时间:2020-03-31 14:48:18    阅读次数:81
【题解】CF575I Robots Protection
"CF 官网链接" "CF.ML 链接" $N \le 5000, Q \le 10^5$ $N \le 3 \times 10^5, Q \le 3 \times 10^5$ 思路 这是一道二维数点题。 只考虑 $dir = 1$,记一个三角形直角顶点 $(p, q)$ ,直角边长 $r$ 考虑斜 ...
分类:其他好文   时间:2020-03-30 09:32:28    阅读次数:61
常用的一些web目录扫描工具
常用的一些web目录扫描工具 0X00目录扫描工具的作用 网站目录和敏感文件扫描是网站测试中最基本的手段之一。如果通过该方法发现了网站后台,可以尝试暴库、SQL注入等方式进行安全测试;如果发现敏感目录或敏感文件,能帮我们获取如php环境变量、robots.txt、网站指纹等信息;如果扫描出了一些上传 ...
分类:Web程序   时间:2020-03-29 11:13:38    阅读次数:650
Web-crawler
导航 (返回顶部) 1. spider 1.1 robots.txt 1.2 ads.txt 1.3 security.txt 1.4 blogger.com 上的 robots.txt和ads.txt 2. 爬虫软件列表 2.1 介绍一些比较方便好用的爬虫工具和服务 2.2 33款可用来抓数据的开 ...
分类:Web程序   时间:2020-03-27 18:26:01    阅读次数:379
529条   上一页 1 ... 3 4 5 6 7 ... 53 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!