码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 you-get    ( 2477个结果
Python爬虫工程师必学——App数据抓取实战
Python爬虫工程师必学 App数据抓取实战 爬虫分为几大方向,WEB网页数据抓取、APP数据抓取、软件系统数据抓取。主要讲解如何用python实现App数据抓取 数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。数据去重可以有效避免资源的浪费,所 ...
分类:移动开发   时间:2019-09-28 14:34:49    阅读次数:294
使用scrapy框架来进行抓取的原因
在python爬虫中:使用requests + selenium就可以解决将近90%的爬虫需求,那么scrapy就是解决剩下10%的吗? 这个显然不是这样的,scrapy框架是为了让我们的爬虫更强大、更高效的存在,所以我们有必要好好了解一下scrapy框架。 scrapy是一个为了爬取网站数据,提取 ...
分类:其他好文   时间:2019-09-26 09:42:56    阅读次数:92
python 爬虫抓取 MOOC 中国课程的讨论区内容
一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容。可以,但是特别慢,相当慢。作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识。甚至看了 scrapy 框架,惊呆了,真棒! 网上很多关于 selenium 库的详细介绍,这里略过此方法。 二: req ...
分类:编程语言   时间:2019-09-24 14:16:16    阅读次数:206
python爬虫(四)_urllib2:handle处理器和自定义opener
opener和handleer 使用相关的Handler处理器来创建特定功能的处理器对象; 然后通过urllib2.build_opener()方法来使用这些处理器对象,创建自定义opener对象; 使用自定义的opener对象,调用open()方法来发送请求。 简单的自定义opener() 这种方 ...
分类:编程语言   时间:2019-09-23 00:12:59    阅读次数:126
Python爬虫(三)_urllib2:get和post请求
urllib.urlencode() urllib和urllib2都是接受URL请求的相关参数,但是提供了不同的功能。两个最显著的不同如下: urllib仅可以接受URL,不能创建设置了headers的Request类实例; 但是urllib提供了urlencode方法用来GET查询字符串的产生,而 ...
分类:编程语言   时间:2019-09-22 23:57:53    阅读次数:199
python爬虫(五)_urllib2:urlerror和httperror
urllib2的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError产生的原 ...
分类:编程语言   时间:2019-09-22 23:54:46    阅读次数:174
Python爬虫(二)_urllib2的使用
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/l ...
分类:编程语言   时间:2019-09-22 23:48:55    阅读次数:113
Python爬虫(一)_HTTP的请求与响应
HTTP和HTTPS HTTP(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收HTML页面的方法 HTTPS(HyperText Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加 ...
分类:编程语言   时间:2019-09-22 23:23:23    阅读次数:133
【Python爬虫】第三课(提取数据)
提取HTML数据 在我爬取链家,携程网站时候遇到问题,明明response 200,但select返回是空值。 目前猜测原因是:存放我想获取数据的网址不是在一开始写入的网址,我resp.text没有看见相关数据。这个以后学习如何处理。 提取Json数据 暂时不会,大致看了下,像字典存储 ...
分类:编程语言   时间:2019-09-22 17:55:34    阅读次数:94
python爬虫从入门到精通-系列教程
开始爬虫之旅 引言 我经常会看到有人在知乎上提问如何入门 Python 爬虫?、Python 爬虫进阶?、利用爬虫技术能做到哪些很酷很有趣很有用的事情?等这一些问题,我写这一系列的文章的目的就是把我的经验告诉大家。 什么是爬虫? 引用自维基百科 网络蜘蛛(Web spider)也叫网络爬虫(Web ...
分类:编程语言   时间:2019-09-22 14:42:25    阅读次数:135
2477条   上一页 1 ... 44 45 46 47 48 ... 248 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!