码迷,mamicode.com
首页 > 其他好文 > 详细

【爬虫】beautiful soup笔记(待填坑)

时间:2017-05-27 15:28:18      阅读:218      评论:0      收藏:0      [点我收藏+]

标签:爬虫   nod   根据   解析   get   tree   parse   ref   网页   

Beautiful Soup是一个第三方的网页解析的模块。其遵循的接口为Document Tree,将网页解析成为一个树形结构。

其使用步骤如下:

1、创建对象:根据网页的文档字符串

2、搜索节点:名称、属性、文字。

3、处理节点:

 

BeautifulSoup(文档字符串, ‘html.parser‘ 解析器,from_encoding=‘utf8‘)

find_all(名称,属性,文字):可以传入字符串 也可以传入正则表达式。

node.name 名称

node[‘href‘] 属性

node.get_text 文字

 

【爬虫】beautiful soup笔记(待填坑)

标签:爬虫   nod   根据   解析   get   tree   parse   ref   网页   

原文地址:http://www.cnblogs.com/yesuuu/p/5747463.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!