1 # 上行遍历 2 soup = BeautifulSoup(demo, 'html.parser') 3 for parent in soup.a.parents: 4 if parent is None: 5 print(parent) 6 else: 7 print(parent.name) ...
分类:
编程语言 时间:
2018-01-27 17:00:04
阅读次数:
150
个人觉得使用BeautifulSoup匹配网页标签内容比re更容易一些,re的规则比较多而且有些使用方法比较难,很容易匹配不到 而soup方法在处理网页标签就特别容易,这和urllib.request.urlopen()和request.get()一样,后者要容易一些: 1.re 正则表达式 编译模 ...
分类:
其他好文 时间:
2018-01-27 11:25:30
阅读次数:
1418
阅读目录 第一篇:爬虫基本原理 第二篇:请求库之requests,selenium 第三篇:解析库之re、beautifulsoup、pyquery 第四篇:存储库之mongodb,redis,mysql 第五篇:爬虫高性能相关 第六篇:Scrapy框架 第七篇:分布式爬虫 参考资料:http:// ...
分类:
其他好文 时间:
2018-01-26 23:04:25
阅读次数:
345
继上一节。BeautifulSoup的高级应用 之 find findAll,这一节,主要解说BeautifulSoup有关的其它几个重要应用函数。 本篇中,所使用的html为: html_doc = """ <html> <head><title>The Dormouse's story</tit ...
分类:
其他好文 时间:
2018-01-24 19:54:06
阅读次数:
394
这次练习爬 传送门 这贴吧里的美食图片。 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门 所有图片的src地址前面都是相同的,所以根据这个就可以筛选出我们想要的图片了。也就是在匹配时不用class属性的 ...
分类:
编程语言 时间:
2018-01-24 13:58:32
阅读次数:
163
requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License ...
分类:
其他好文 时间:
2018-01-24 00:40:54
阅读次数:
227
lxml是个非常有用的python库,它可以灵活高效地解析xml,与BeautifulSoup、requests结合,是编写爬虫的标准姿势。 参考 "Windows下如何安装python第三方库lxml" 文章记于16年,此篇文章对此更新并加以细节解释 工具/原料 + python + pip +我 ...
分类:
编程语言 时间:
2018-01-23 00:47:32
阅读次数:
238
爬虫的基本原理 爬虫——请求库之requests 爬虫——请求库之selenium模块 爬取拉勾网示例 破解极验滑动验证码 解析库之——beautifulsoup 存储库之——MongoDB 爬虫关于高性能方面 ...
分类:
其他好文 时间:
2018-01-22 21:14:48
阅读次数:
145
一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu ...
分类:
其他好文 时间:
2018-01-21 23:52:54
阅读次数:
239
一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu ...
分类:
其他好文 时间:
2018-01-21 17:36:48
阅读次数:
175