码迷,mamicode.com
首页 > 编程语言 > 详细

python 正则表达式 提取网页中标签的中文

时间:2017-09-03 21:07:05      阅读:472      评论:0      收藏:0      [点我收藏+]

标签:标签   for   字符编码   输出   comment   mpi   ...   blog   text   

转载请注明出处 http://www.cnblogs.com/pengwang57/。

 

>>> p= re.compile(r\<div class="comment-content comment-content_new"\>([^x00-xff]*)\<\/div\>)
>>> text=<div class="comment-content comment-content_new">测试</div> <div class="comment-content comment-content_new">学习正则</div>
>>> for m in p.finditer(text):
...     print m.group(1)
...
测试
学习正则


如果 用findall 输出为中文字符编码
>>> m = re.findall(r\<div class="comment-content comment-content_new"\>([^x00-xff]*)\<\/div\>,<div class="comment-content comment-content_new">测试</div> <div class="comment-content comment-content_new">学习正则</div>)
>>> print m
[\xe6\xb5\x8b\xe8\xaf\x95, \xe5\xad\xa6\xe4\xb9\xa0\xe6\xad\xa3\xe5\x88\x99]

 

python 正则表达式 提取网页中标签的中文

标签:标签   for   字符编码   输出   comment   mpi   ...   blog   text   

原文地址:http://www.cnblogs.com/pengwang57/p/7470752.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!