搜索关键字：robots，搜索到529个结果！码迷,mamicode.com！

python学习之爬虫理论总结

通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种.通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎

分类：编程语言时间：2020-04-13 22:44:50 阅读次数：125

ABC 158 F - Removing Robots dp 单调栈

LINK： "Removing Robots" 没想到自闭。考虑了一个容斥发现不合法方案难以计算。就算可以计算也几乎是n^2的做法。考虑dp 左边会对右边产生影响所以考虑先dp右边的再考虑左边的。至于dp 自然是f[i]表示这个i~n这么多点的方案数。设 i向右第一个影响不到的点为w ...

分类：其他好文时间：2020-04-12 20:47:37 阅读次数：67

[CISCN2019 华东南赛区]Double Secret

[CISCN2019 华东南赛区]Double Secret 首页面是比较无奈的我进入了robots.txt发现了毫无作用的信息有的大佬猜到了目录，我是扫出来的输入几个参数试试，发现他被加密了，毫无思路自己还跑了1到128的脚本发现没什么规律。当你输入一堆奇怪的东西比如:123123ads ...

分类：其他好文时间：2020-04-07 15:48:54 阅读次数：176

HTML中meta标签详解；property=og标签详解

meta是用来在HTML文档中模拟HTTP协议的响应头报文。META标签是HTML语言HEAD区的一个辅助性标签，它位于HTML文档头部的<HEAD>标记和<TITLE>标记之间，它提供用户不可见的信息。meta标签通常用来为搜索引擎robots定义页面主题，或者是定义用户浏览器上的cookie；它 ...

分类：Web程序时间：2020-04-06 15:24:02 阅读次数：83

XCTF fakebook

一.进入实验 1.先用 dirsearch 去扫描目录 python dirsearch.py -u "http://111.198.29.45:33988/" -e * 根据扫描的结果我们发现了robots.txt，user.php，view.php等等，扫完之后先不急着去访问，在进入实验环境后， ...

分类：其他好文时间：2020-04-03 23:40:48 阅读次数：143

[SCTF2019]Flag Shop

[SCTF2019]Flag Shop 将回日月先反掌；欲作江河惟画地考点: ruby审计 cookie伪造；记录一道SCTF的题目，读取robots.txt 发现/filebak 进行读取。是ruby；抓包进行测试，发现每一次工作之后cookie都会发生改变，结合源码，发现cookie加密方 ...

分类：其他好文时间：2020-04-03 12:25:59 阅读次数：138

爬虫的基本知识

# 聚焦爬虫的设计思路:1.确定url, 发起请求, 获取响应 > 抓包, requests, urllib, aiohttp, scrapy2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery3.数据持久化 --> 文件系统, 数据库 --> MySQL, Mong ...

分类：其他好文时间：2020-03-31 14:48:18 阅读次数：81

【题解】CF575I Robots Protection

"CF 官网链接" "CF.ML 链接" $N \le 5000, Q \le 10^5$ $N \le 3 \times 10^5, Q \le 3 \times 10^5$ 思路这是一道二维数点题。只考虑 $dir = 1$，记一个三角形直角顶点 $(p, q)$ ，直角边长 $r$ 考虑斜 ...

分类：其他好文时间：2020-03-30 09:32:28 阅读次数：61

常用的一些web目录扫描工具

常用的一些web目录扫描工具 0X00目录扫描工具的作用网站目录和敏感文件扫描是网站测试中最基本的手段之一。如果通过该方法发现了网站后台，可以尝试暴库、SQL注入等方式进行安全测试；如果发现敏感目录或敏感文件，能帮我们获取如php环境变量、robots.txt、网站指纹等信息；如果扫描出了一些上传 ...

分类：Web程序时间：2020-03-29 11:13:38 阅读次数：650

Web-crawler

导航 (返回顶部) 1. spider 1.1 robots.txt 1.2 ads.txt 1.3 security.txt 1.4 blogger.com 上的 robots.txt和ads.txt 2. 爬虫软件列表 2.1 介绍一些比较方便好用的爬虫工具和服务 2.2 33款可用来抓数据的开 ...

分类：Web程序时间：2020-03-27 18:26:01 阅读次数：379

共529条上一页 1 ... 3 4 5 6 7 ... 53 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)