首先,我们来看一下requests模块的使用: requests模块:一个网络请求的模块 环境的安装: pip install request requests模块的作用:模拟浏览器发送请求 requests的编码流程: 指定url 发送请求 获取响应数据 进行持久化储存 下面做几个练习,熟悉一下r ...
分类:
其他好文 时间:
2019-05-24 11:08:43
阅读次数:
119
1、爬虫基本概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 百度百科 简单的说,爬虫就是获取目标网页源代码,并提取和保存网页信息的自动化程序或者脚本。网络爬虫脚本或者程序一般包含如下几个步骤: A ...
分类:
编程语言 时间:
2019-05-13 17:48:29
阅读次数:
152
反爬问题 1. 反爬 [用户代理] web开发中,同一个url往往可以对应若干套不同的数据(或者界面,如手机、电脑),后台可以根据发起请求的前端的用户代理的不同,而决定应该给前端做出什么样的响应 如果检测到没有用户代理可以拒绝访问 解决方案:伪装请求头 2. 解决 创建 Request 对象req ...
分类:
Web程序 时间:
2019-05-02 11:57:57
阅读次数:
226
## 学习爬虫务必从了解请求网页的工作流程和网页的组成原理开始,不然直接去学爬虫操作像是请求库等等,大概率会知其然而不知其所以然(个人体会) URL和HTTP简介 URL(Uniform Resource Locator):统一资源定位符 下面通过百度贴吧的网址来看一下它们到底是个什么玩意儿: ht ...
分类:
Web程序 时间:
2019-04-28 20:45:39
阅读次数:
193
尝试直接请求URL获取资源 豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=time&page_limit=20&page_start=0 浏览器打开该地址: 发现是这样的 在这里我们需要用j ...
分类:
编程语言 时间:
2019-04-20 10:10:38
阅读次数:
174
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结 主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好。 一、爬虫介绍 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。 传统爬虫: 获得URL -》 ...
分类:
编程语言 时间:
2019-04-20 09:29:54
阅读次数:
181
jsoup的使用 jsoup介绍 jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,css以及类似于Jquery的操作方法来取出和操作数据。 主要功能 直接请求URL 一开始直接使用jsonp的connect方法调用上节 ...
分类:
编程语言 时间:
2019-04-20 09:18:37
阅读次数:
196
寻找登录的post地址 - 在form表单中寻找action对应的url地址 - post的数据是input标签中name的值作为键,真正的用户名密码作为值的字典,post的url地址就是action对应的url地址 - 抓包,寻找登录的url地址 - 勾选perserve log按钮,防止页面跳转 ...
分类:
其他好文 时间:
2019-03-23 16:00:17
阅读次数:
105
1. 爬虫简介 1.1 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 1.2 爬虫的价值 在互联网的世界里最有价值的便是数据, 谁掌握了某个行业的行业内的第一手数据, 谁就是该行业的主宰. 掌握 ...
分类:
其他好文 时间:
2019-03-01 18:26:49
阅读次数:
203