码迷,mamicode.com
首页 >  
搜索关键字:htmlparser    ( 183个结果
一个极其简洁的Python网页抓取程序,自己主动从雅虎財经抓取股票数据
本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期、股票名称、实时报价、当日变化率、当日最低价、当日最高价。因为Yahoo Finance的股票页面中的数值都有对应id。比如纳斯达克1...
分类:编程语言   时间:2014-10-09 14:23:13    阅读次数:332
python抓取伯乐在线的全部文章,对标题分词后存入mongodb中
依赖包:1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...
分类:数据库   时间:2014-10-06 19:06:30    阅读次数:266
Python 实现类似PHP的strip_tags函数功能,并且可以自定义设置保留标签
最近在研究 Python ,发现用的还是很不习惯,很多PHP里面很简单的功能在Python 里面都得找半天,而且很多功能都得自己实现。 今天做个采集,需要过滤内容中的标签,搞了一下午,貌似终于搞出来了,测试了下达到了预想的效果,废话不多说贴上代码吧 from html.parser import HTMLParser def strip_tags(html, save=None): ...
分类:编程语言   时间:2014-09-29 20:56:11    阅读次数:188
python 获取html置顶标签文本信息
class MyParser(HTMLParser): def __init__(self,key): self.data=[] self.key=key self.falg=False self.linkname='' H...
分类:编程语言   时间:2014-09-28 15:52:22    阅读次数:288
libxml/HTMLparser.h file
在导入asihttprequest包时出问题导入了libxml2.dylib,但是却提示libxml/HTMLparser.h file not found,那是因为你的开发环境默认的路径无法找到这个libxml2.dylib框架,修改方法:(两种方法都试一下吧)第一种方法:(我的可行)点击左边项目...
分类:Web程序   时间:2014-09-24 19:15:27    阅读次数:281
183条   上一页 1 ... 13 14 15 16 17 ... 19 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!