码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫问题请教一下大家(急等回复)

时间:2014-05-22 00:59:35      阅读:354      评论:0      收藏:0      [点我收藏+]

标签:style   blog   class   c   code   java   

我在编写一段pythn爬虫的时候遇到一个估计是编码的问题,可以怎么也解决不好。代码如下:

bubuko.com,布布扣
#- * - coding: UTF-8 -*-
import urllib.request
import re

html = urllib.request.urlopen("http://weibo.com/p/1005052998938613/follow?relate=fans&from=100505&wvr=5&mod=headfans").read().decode(utf-8)
print(html)
groups = re.compile(rfnick=(.+?)&, re.M | re.S).findall(html)
for i in groups:
    print(i)
bubuko.com,布布扣

我想获取某人(随便找的,方便你查看网页)的新浪微博的粉丝列表,我看html的编码方式是urf-8,所以采用了-8的解码方式。可是每次都报这样的错误:

bubuko.com,布布扣

可是获取这个html的title(关注我的人 微博-随时随地分享身边的新鲜事儿)却是可以的。而如果我把真个网页内容当做一个字符串放在py里面的话,一切解析正常。另外,我获取58、搜狐等一些网站的内容并解析都是好好的,唯有新浪微博这么难弄。真不明白这是怎么回事,希望懂这方面的童鞋可以帮我解答一下。

python爬虫问题请教一下大家(急等回复),布布扣,bubuko.com

python爬虫问题请教一下大家(急等回复)

标签:style   blog   class   c   code   java   

原文地址:http://www.cnblogs.com/xuchaosheng/p/3738873.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!