码迷,mamicode.com
首页 > 其他好文 > 详细

requests/lxml的简单用例

时间:2016-05-28 01:09:12      阅读:176      评论:0      收藏:0      [点我收藏+]

标签:

bytearray([source [, encoding [, errors]]])

bytearray([source [, encoding [, errors]]])返回一个byte数组。Bytearray类型是一个可变的序列,并且序列中的元素的取值范围为 [0 ,255]。

参数source:

如果source为整数,则返回一个长度为source的初始化数组;

如果source为字符串,则按照指定的encoding将字符串转换为字节序列;

如果source为可迭代类型,则元素必须为[0 ,255]中的整数;

如果source为与buffer接口一致的对象,则此对象也可以被用于初始化bytearray。

 

lxml库的使用

比较详细 http://www.crifan.com/python_try_lxml_parse_html/

简单来说selector = etree.HTML(html) 用来返回一个<Element html at 0x28b0620>,

其由<Element head at 0x28c13f0>,<Element body at 0x28c1fa8>...等组成

使用content = selector.xpath(‘//span[@class="ctt"]‘)来解析xml,

xpath的使用

xpath基本上是用一种类似目录树的方法来描述在XML文档中的路径。比如用“/”来作为上下层级间的分隔。第一个“/”表示文档的根节点(注意,不是指文档最外层的tag节点,而

是指文档本身)。比如对于一个HTML文件来说,最外层的节点应该是"/html"。 定位某一个HTML标签,可以使用类似文件路径里的绝对路径,如page.xpath(u"/html/body

/p"),它会找到body这个节点下所有的p标签;也可以使用类似文件路径里的相对路径,可以这样使用:page.xpath(u"//p"),它会找到整个html代码里的所有p标签。

除此之外还可以使用[@class] 等条件来进一步筛选内容,缩小范围。

提取内容时,可能会遇到嵌套标签的情况,可以使用xpath(‘string(.)‘)直接提取出所有字符串

 

代码样例

# -*-coding:utf8-*-
__author__ = Liu_100
import requests
from lxml import etree
cookie = {Cookie:_T_WM=8a2006293dfe5dc8c4d35223168328e8; SUB=_2A256TE82DeRxGedH6VcZ-SrPyTiIHXVZz1F-rDV6PUNbuNBeLRP3kW1LHesKXdUoJYW0wFPmv0w89PMwWXf5_w..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WF1xfN7lmTJsSVpAxdGfnZF5JpX5K2hUgL.Fo24eo-R1KB0eoB2dJLoIEXLxK-LB--LB.BLxK-LB--LB.BLxK-L12qL12zLxKBLB.2LB.2LxK-LBonL1K5t; SUHB=0rr6esvipUlF8C; ALF=1466944614; SSOLoginState=1464352614}
url = http://weibo.cn/u/1890493665
# html = requests.get(url).content
# print html
html = requests.get(url, cookies=cookie).content
# html = requests.get(url, cookies=cookie).text
# html = bytes(bytearray(html, encoding=‘utf-8‘))
selector = etree.HTML(html)
content = selector.xpath(//span[@class="ctt"])
for each in content:
    text = each.xpath(string(.))
    print text

 

requests/lxml的简单用例

标签:

原文地址:http://www.cnblogs.com/autoria/p/5536603.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!