码迷,mamicode.com
首页 > Web开发 > 详细

#爬虫必备,解析html文档----beautifulsoup的简单用法

时间:2015-05-08 12:18:35      阅读:112      评论:0      收藏:0      [点我收藏+]

标签:


#出处:http://mp.weixin.qq.com/s?__biz=MjM5NzU0MzU0Nw==&mid=201820961&idx=2&sn=b729466f334d64b2c36e05e65235fdd1#rd
#获取html文档
# import urllib,urllib2
# url=urllib.urlopen(‘http://www.qq.com‘)
# #读取
# url0=url.read()
# #或者
# url1=url.read().decode(‘utf-8‘)
# print url1
#如果不指定decode方式则以系统预设方式decod
#bs4处理
from bs4 import BeautifulStoneSoup as soup
soup1=soup(‘http://www.qq.com‘)
#以css样式存取node
htmldate=soup1.findAll(‘p‘,{‘class‘:‘right‘})
#寻找所有<p class="right"></p>的node并return一个list給htmldata变量
#以属性方式存取node
htmltitle=soup1.findAll(id=‘title‘)
#寻找所有<XX id = "title"></XX>的node(XX为任意名称)
#取得node里面内容
#想取得像href这类超链接时可用(以下为soup指到<a>node情況下)
url=‘http://www.qq.com‘
url=soup1[‘href‘]
#取得内容
#如果是<node>string</node>的情況下可以使用
context=soup1.string
#如果要取得所有內容的话,可使用
all=soup1.contents
#中文文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

#爬虫必备,解析html文档----beautifulsoup的简单用法

标签:

原文地址:http://www.cnblogs.com/mhxy13867806343/p/4487041.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!