1.安装 cmd >>pip install beautifulsoup4 2.安装测试。 煲汤过程可以总结为: 3. BeautifulSoup 的基本元素。 3.1 Tag标签 3.2 标签的名字 3.3 标签的属性 (不懂有什么用) 3.4 标签的字符串 3.5 注释。 ...
分类:
其他好文 时间:
2017-07-23 00:46:22
阅读次数:
310
BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。 其相较与正则而言,使用更加简单。 示例: 首先必须要导入bs4库 运行结果 四大对象种类 BeautifulSoup将复杂的HTML文档转换成 ...
分类:
其他好文 时间:
2017-07-22 18:14:34
阅读次数:
447
先去下载beautifulsoup的安装包https://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/ 下载完之后解压 然后进包里面,里面有一个setup.py文件,执行它 然后就大功告成了,安装完之后我们就可以去爬虫了 ...
分类:
系统相关 时间:
2017-06-11 12:06:17
阅读次数:
176
前言 很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易 一、子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc">这个tag为起点 2.那么div这个tag就是父节点 3."摘要: 前言 本篇详细。。。"这个string就是上 ...
分类:
编程语言 时间:
2017-06-04 17:04:33
阅读次数:
170
前言 本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑 一、目标网站 1.随便打开一个风景图的网站:http://699pic.com/sousuo-218808-13-1.html 2.用firebug定位,打开firepath里css定位目标图片 3.从下图可以看出,所有的图片都是img标 ...
分类:
编程语言 时间:
2017-06-03 12:38:33
阅读次数:
195
#!/sur/bin/python#conding=utf-8import urllib.requestfrom bs4 import BeautifulSoupurl="http://www.shicimingju.com/book/sanguoyanyi.html" # 要爬取的网络地址menu ...
分类:
编程语言 时间:
2017-05-29 22:53:49
阅读次数:
336
前言 以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。 一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 二、解析器 1.我们主要用 ...
分类:
编程语言 时间:
2017-05-27 22:27:32
阅读次数:
312
1.安装模块 cmd “pip install [模块名]” 2.爬虫常用模块 requests beautifulsoup4 3.检查已安装的模块 cmd "pip list" 安装模块 "pip install [模块]" 现实过期模块 "pip list --outdated" 更新指定模块 ...
分类:
编程语言 时间:
2017-05-26 00:49:59
阅读次数:
209
解决bs4在Python 3.5下出现“ImportError: cannot import name 'HTMLParseError'”错误 分类:Python (4251) (3) 分类:Python (4251) (3) 升级了Python3.5之后,我使用BeautifulSoup4时候出现 ...
分类:
其他好文 时间:
2017-05-20 11:09:29
阅读次数:
224
运行环境 CentOS7.3 + Python2.7 + Scrapy1.3 + MongoDB3.4 + BeautifulSoup4.6 编程工具 PyCharm + Robomongo + Xshell 请确保你的 python版本为2.7.5以上 版本强烈推荐直接【翻 墙 安 装】,简单轻松 ...
分类:
数据库 时间:
2017-05-14 23:46:34
阅读次数:
555