码迷,mamicode.com
首页 >  
搜索关键字:urllib    ( 2222个结果
Python之路【第十九篇】:爬虫
Python之路【第十九篇】:爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 Requests Python标准库中提供了:urllib ...
分类:编程语言   时间:2016-11-06 22:54:54    阅读次数:434
python 实现文件文件
Requests库,高度封装的http库 urllib库,操作上能比Requests灵活一点,没有特殊需求的话基本没什么差别 还有个一句话的 ...
分类:编程语言   时间:2016-11-06 16:14:50    阅读次数:246
朴素贝叶斯——实现贴吧精品贴的预测
首先是爬取了我们学校贴吧的贴吧数据,每个帖子都有是否是精品贴的标签。 根据帖子标题信息,实现了贴吧精品贴和普通贴的分类。错误率在10%左右。 切词用的是jieba吧,没有过滤点停用词和标点符号,因为标点符号其实也是可以算是区分帖子是否是精品贴的而一个重要特征;其实还可以增加几个特征,比如第一页是否含 ...
分类:其他好文   时间:2016-11-04 01:10:12    阅读次数:299
Python-第三方库requests详解
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib ...
分类:编程语言   时间:2016-10-30 20:15:34    阅读次数:419
Python:urllib 和urllib2之间的区别
你可能对于Python中两个独立存在的-urllib2和-urllib2感到好奇。更有趣的是:它们并不是可以相互代替的。那么这两个模块间的区别是什么,并且这两个我们都需要吗?urllib 和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下: urllib2可以接 ...
分类:编程语言   时间:2016-10-29 09:38:23    阅读次数:148
python爬取糗百第一页的笑话
自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的 ...
分类:编程语言   时间:2016-10-28 22:31:08    阅读次数:204
爬取京东上商品的所有详细信息
项目介绍 使用python抓取京东商城商品(以手机为例)的详细信息,并将相应的图片下载下载保存到本地。 爬取步骤 1.选取种子URL:http://list.jd.com/list.html?cat=9987,653,655 2.使用urllib和urllib2下载网页 3.使用BeautifulS ...
分类:其他好文   时间:2016-10-27 17:12:43    阅读次数:321
python 简单爬虫diy
简单爬虫直接diy, 复杂的用scrapy ...
分类:编程语言   时间:2016-10-27 10:21:07    阅读次数:166
为采集动态网页安装和测试Python Selenium库
上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。这里我们使用selenium库,通过它我们可以很简单的使用浏览器来为我们加载动态内容,从而获取采集结... ...
分类:编程语言   时间:2016-10-25 14:06:51    阅读次数:259
Python 记录(一)
一开始没发现3.5与2.x版本的区别,导致浪费了很多时间在导包等问题上: 如: Pyhton2中的urllib2工具包,在Python3中分拆成了urllib.request和urllib.error两个包。就导致找不到包,同时也没办法安装。 所以需要install urllib.request和i ...
分类:编程语言   时间:2016-10-22 12:13:22    阅读次数:140
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!