码迷,mamicode.com
首页 > 编程语言 > 详细

20190716-Python网络数据采集/第 2 章 复杂HTML解析

时间:2019-07-17 00:31:58      阅读:114      评论:0      收藏:0      [点我收藏+]

标签:python对象   obj   ace   问题   知识点   parse   自己的   多个   组成   

# P29/9
# 解析,要考虑到可持续性问题,对方反爬修改后,仍继续有效,方为优秀代码
# 解析一个目标网页前,需要做到以下几点:
(1)明确目标内容;
(2)寻找“打印此页”的链接,或查看网站有无HTML样式更友好的移动版(把自己的请求头设置为处于移动设备的状态,后接收网站移动版,更多见第12章)
(3)寻找隐藏在JavaScript文件中的信息;
(4)寻找网页标题(常用),有时也可从URL中获取;
(5)思考,你需要找的数据,有没有其他网站可以提供?多源
 1 from urllib.request import urlopen
 2 from bs4 import BeautifulSoup
 3 
 4 html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
 5 
 6 # 此处有报警,pass the additional argument ‘features="lxml"‘ to the BeautifulSoup constructor
 7 # 参考:https://stackoverflow.com/questions/50045775/lxml-beautifulsoup-parser-warning
 8 bsobj = BeautifulSoup(html,features="lxml")
 9 
10 # 找出所有该标签及对应的内容,存在一个列表[,,,]里面
11 namelist = bsobj.findAll("span",{"class":"green"})
12 
13 print(namelist)
14 
15 for name in namelist:
16     # 用name变量,遍历namelist[]中所有元素,并去除tag中包含的文本内容
17     print(name.get_text())

更多关于BeautifulSoup的文档,一定要看!!!参见链接

Beautiful Soup将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有的对象归纳起来有4种,分别是:Tag,NavigableString,BeautifulSoup,Comment。

核心知识点:

(1)用 .get_text() 进行格式化输出,.get_text()只输出tag及子孙tag中的文本内容

(2).find()及 .findAll()函数

1  findAll(tag, attributes, recursive, text, limit, keywords)
2  find(tag, attributes, recursive, text, keywords)

  tag,标签参数,可传一个标签的名称或多个标签的名称,组成Python列表,作为标签参数。

1  .findAll({"h1","h2","h3","h4"})

  attributes,属性参数,用Python字典封装一个标签的若干属性和对应的属性值。

1     .findAll("span", {"class": {"green", "red"}})

  recursive,递归参数,是一个布尔变量。如果设置为TRUE(默认参数),则查询标签参数的所有子标签,以及子标签的子标签,如果为FALSE,只查找文档的一级标签(相当于 .find()函数)。

 

 后续 “导航树”。。。

 

20190716-Python网络数据采集/第 2 章 复杂HTML解析

标签:python对象   obj   ace   问题   知识点   parse   自己的   多个   组成   

原文地址:https://www.cnblogs.com/ElonJiang/p/11198323.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!