码迷,mamicode.com
首页 > 移动开发 > 详细

python for android : BeautifulSoup 有 bug

时间:2014-05-03 17:33:08      阅读:427      评论:0      收藏:0      [点我收藏+]

标签:python   数据分析   极客   

BeautifulSoup 善于网页数据分析 ,但是 python for android : BeautifulSoup 有 bug ,

text = h4.a.text 只能取得 None,所以我写了function: getText() 来fix this bug.

例如: 抓取CSDN极客头条内容  soup.py

import urllib2, re
from BeautifulSoup import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)

def getText(text):
    begin = text.find(‘>‘,0)
    if begin > -1:
        begin += 1
        end = text.find(‘</a>‘,begin)
        if begin < end:
            return text[begin:end].strip()
        else:
            return None
    else:
        return None

page = urllib2.urlopen("http://geek.csdn.net/new")
soup = BeautifulSoup(page)
for h4 in soup.findAll(‘h4‘):
    if h4.a is not None:
        href = h4.a.get(‘href‘)
        text = getText(str(h4.a))
        print text
        print href
page.close()

请参考:   http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

python for android : BeautifulSoup 有 bug,布布扣,bubuko.com

python for android : BeautifulSoup 有 bug

标签:python   数据分析   极客   

原文地址:http://blog.csdn.net/belldeep/article/details/24899301

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!