码迷,mamicode.com
首页 > 其他好文 > 详细

信息的组织和提取

时间:2017-07-23 13:35:40      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:print   request   精确   技术分享   com   ext   pytho   demo   []   

1.信息的三种类型。’

1.1  XML

技术分享

技术分享

2.JSON

技术分享

技术分享

3.YAML

技术分享

技术分享

三种信息的比较:

技术分享

2.信息的提取

技术分享

import requests
r
= requests.get("http://python123.io/ws/demo.html") demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,"html.parser") # Tag

# print(soup.find_all(tag)) # NO tag for tag in soup.find_all():

string

# string
# print(soup.find_all("a").string)           # 错误表达
print(soup.find_all("a",str))                # 错误表达
print(soup.find_all(str= "Basic Python"))    # 错误表达
print(soup.find_all(string= "Basic Python")) # 正确表达   精确搜索               # [‘Basic Python‘]
import re  
print(soup.find_all(string=re.compile("python")))   # 正则运算    模糊搜             # [‘This is a python demo page‘, ‘The demo python introduces several python courses.‘]

others

#标签属性值进行,标注属性属性检索
print(soup.find_all("p","course"))       #
print(soup.find_all(id="link1"))

print(soup.find_all(id="link"))                        # [] 只能精确搜索
print(soup.find_all(id=re.compile("link")))            # 引入正则表达式进行搜索

# 是否对子孙节点进行搜索,默认为是
print(soup.find_all("a"))
print(soup.find_all("a",recursive=False))                   # no 对子孙节点进行搜索                        # []

 

信息的组织和提取

标签:print   request   精确   技术分享   com   ext   pytho   demo   []   

原文地址:http://www.cnblogs.com/hanbb/p/7223927.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!