前言 在完成爬虫任务的时候,我们总是会遇到用户账号登陆的问题,如果自己手动登陆的话,那么工作量就很大了,如何解决登陆问题呢? 今天老师带领大家使用selenium完成淘宝账号登陆 本篇文章知识点: selenium自动化测试框架的基本使用 通过xpath寻找相应组件并自动化操作 环境介绍: pyth ...
分类:
编程语言 时间:
2020-08-01 21:30:27
阅读次数:
104
本篇目标 抓取淘宝MM的姓名,头像,年龄 抓取每一个MM的资料简介以及写真图片 把每一个MM的写真图片按照文件夹保存到本地 熟悉文件保存的过程 PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取 1.URL的格式 在这里我们用到的URL是 http://mm.taobao.c ...
分类:
编程语言 时间:
2020-07-28 17:14:57
阅读次数:
88
问题状况: response = requests.get(url=url, headers=headers).text html = etree.HTML(response) name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0] ...
分类:
编程语言 时间:
2020-07-28 14:08:09
阅读次数:
87
一、python爬虫环境与简介 二、认识HTTP 三、简单静态网页爬取 四、常规动态网页爬取 五、模拟登陆 六、PC客户端抓包 七、Scrapy爬虫 一、python爬虫环境与简介 1、认识爬虫 (1)爬虫的概念 网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。 网 ...
分类:
编程语言 时间:
2020-07-25 09:28:47
阅读次数:
66
案例一:解析出全国所有城市名称代码如下:importrequestsfromlxmlimportetreeif__name__=="__main__":headers={‘User-Agent‘:‘Mozilla/5.0(Macintosh;IntelMacOSX10_12_0)AppleWebKit/537.36(KHTML,likeGecko)Chrome/73.0.3683.103Safar
分类:
编程语言 时间:
2020-07-23 19:04:28
阅读次数:
103
聚焦爬虫:爬取页面中指定的页面内容。编码流程:1.指定url2.发起请求3.获取响应数据4.数据解析5.持久化存储数据解析分类:1.bs42.正则3.xpath(***)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储1.进行指定标签的定位2.标签或者标签对应的属性中存储的数据值进行提取(解析)bs4进行数据解析数据解析的原理:1.标签定位2.提取标签、标签属性中存
分类:
编程语言 时间:
2020-07-22 20:21:41
阅读次数:
68
案例:使用正则爬取糗图百科图片单页面的代码importreimportrequestsimportos#创建文件夹ifnotos.path.exists(‘./qiutu‘):os.mkdir(‘./qiutu‘)headers={‘user-agent‘:‘Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)‘‘C
分类:
编程语言 时间:
2020-07-22 16:05:52
阅读次数:
79
页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构,(http://www.baidu.com) 结构化数据:先有结构、再有数据(https://www.qiushi ...
分类:
编程语言 时间:
2020-07-21 13:36:53
阅读次数:
73
爬虫需求1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源?2.你是否在节假日出行高峰的时候,想快速抢购火车票成功?3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品?爬虫简介通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。爬虫的价值抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步做的就是如何将这些爬取的数据产品化
分类:
编程语言 时间:
2020-07-21 11:43:41
阅读次数:
82
公式: di=xi-yi 注意:这里的Xi、Yi是原始数据的等级,也就是排序序号,不是元素数据值。 取值-1到+1之间, 为正时表示正相关, 为负时表示负相关, 等于零时表示相关为零。但与相关系数不同的是,它是建立在等级的基础上计算的,较适用于反映序列变量的相关。 ...
分类:
其他好文 时间:
2020-07-21 01:04:39
阅读次数:
123