#爬虫必备，解析html文档----beautifulsoup的简单用法

时间：2015-05-08 12:18:35 阅读：112 评论：0 收藏：0 [点我收藏+]

标签：


#出处：http://mp.weixin.qq.com/s?__biz=MjM5NzU0MzU0Nw==&mid=201820961&idx=2&sn=b729466f334d64b2c36e05e65235fdd1#rd
#获取html文档
# import urllib,urllib2
# url=urllib.urlopen(‘http://www.qq.com‘)
# #读取
# url0=url.read()
# #或者
# url1=url.read().decode(‘utf-8‘)
# print url1
#如果不指定decode方式则以系统预设方式decod
#bs4处理
from bs4 import BeautifulStoneSoup as soup
soup1=soup(‘http://www.qq.com‘)
#以css样式存取node
htmldate=soup1.findAll(‘p‘,{‘class‘:‘right‘})
#寻找所有<p class="right"></p>的node并return一个list給htmldata变量
#以属性方式存取node
htmltitle=soup1.findAll(id=‘title‘)
#寻找所有<XX id = "title"></XX>的node(XX为任意名称)
#取得node里面内容
#想取得像href这类超链接时可用(以下为soup指到<a>node情況下)
url=‘http://www.qq.com‘
url=soup1[‘href‘]
#取得内容
#如果是<node>string</node>的情況下可以使用
context=soup1.string
#如果要取得所有內容的话，可使用
all=soup1.contents
#中文文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

标签：

原文地址：http://www.cnblogs.com/mhxy13867806343/p/4487041.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行