码迷,mamicode.com
首页 > 其他好文 > 详细

Xpath编码问题解决

时间:2020-01-03 00:30:24      阅读:224      评论:0      收藏:0      [点我收藏+]

标签:mamicode   sdn   sel   tail   http   技术   print   ext   图片   

使用Xpath获取属性时,出现乱码问题,解决办法找了好多,终于解决,特将办法贴在这,供大家尝试

 

 

技术图片

 

 不要直接简单的将爬取的网页设置为utf-8,

先通过print(r.encoding)输出看看爬取的是什么编码,每个网页采用的编码不同,

后通过标红线的代码可解决问题

 

selector_new = etree.HTML(html.text)
是将HTML转化为文本/html 格式
selector_new = etree.HTML(html.content)
是将HTML转化为二进制/html 格式

我是通过以下链接博客解决的:

https://blog.csdn.net/hyg55555/article/details/85246353

Xpath编码问题解决

标签:mamicode   sdn   sel   tail   http   技术   print   ext   图片   

原文地址:https://www.cnblogs.com/ggrm/p/12142700.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!