码迷,mamicode.com
首页 >  
搜索关键字:lxml    ( 754个结果
Python练习:优酷评论过滤(抓取当前视频全部评论,并过滤不包括所需关键词的留言)
1 # coding:utf-8 2 print('正在初始化...') 3 import requests 4 import re 5 from lxml.html import fromstring 6 import pyautogui 7 import sys 8 import os 9 f....
分类:编程语言   时间:2015-08-15 14:49:39    阅读次数:290
转:Python网页解析:BeautifulSoup vs lxml.html
转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有BeautifulSoup和lxml.html,其中前者可能更知名一点吧,熊猫开始也是使用的BeautifulSo...
分类:编程语言   时间:2015-08-15 01:24:01    阅读次数:236
how to remove an element in lxml
import lxml.etree as et xml=""" apple pear strawberry blueberry starfruit mango peach """ tree=et.fromstring(xml) for bad in tree.xpath("//fruit[@stat...
分类:其他好文   时间:2015-07-29 15:27:44    阅读次数:159
Python脚本生成sitemap
项目需要用脚本生成sitemap,中间学习了一下sitemap的格式和lxml库的用法。把结果记录一下,方便以后需要直接拿来用。安装lxml首先需要pip install lxml安装lxml库。 如果你在ubuntu上遇到了以下错误: #include "libxml/xmlversion.h"compilation terminated.error: command 'x86_64-linu...
分类:编程语言   时间:2015-07-23 12:01:25    阅读次数:232
Python爬虫(使用requests)
import requestsfrom lxml import etreeurl = "http://avdb.la/actor/"headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...
分类:编程语言   时间:2015-07-18 00:26:23    阅读次数:171
python抓取QQ空间的日志
#?-*-?coding:?utf-8?-*- from?HttpRequestModule?import?*? import?os import?json import?traceback import?codecs from?lxml?import?etree import?StringIO,?gzip? import?sys reloa...
分类:编程语言   时间:2015-07-16 22:44:50    阅读次数:179
2015暑假记录
暑假记录datework2015/7/13-2015/7/14win下安装scrapy 安装流程: 重新安装python2.7 安装pip,easy_install 使用pip安装lxml,pyOpenSSL,Zope.Interface,twisted,pywin32 注意所有的系统版本...
分类:其他好文   时间:2015-07-16 19:37:16    阅读次数:170
Python 3.4 install lxml
Python 中使用Xpath不可避免地需要倒入lxml模块。 不过现在Python所面临的一个主要问题是他有两个主流的版本2.7和3.42.7是相对稳定的版本,许多模块在2.7上的支持性都非常好。 3.4相对来说,笔者认为更加标准和规范化,比如说默认的精确除法,以及print的括号等。 但3.4美中不足的便是对一些模块的支持行不是很好,比如:scrapy,lxml等笔者使用的Python3...
分类:编程语言   时间:2015-07-11 09:12:28    阅读次数:186
python 解析HTML
1. 理解网页上的数据 网页上的数据主要有: HTML XHTML XML JSON 需要一个接受数据并解析的机制 需要一个产生数据并发送的机制 2. 解析HTML 层次化的数据 有多个解析HTML的第三方库,例如:LXML,BeautifulSoup,HTMLParser等等。 解析HTML所面临的问题: 没有统一的标准。 很多网页并没有遵循HTML文档 2.1 BeautifulSoup...
分类:编程语言   时间:2015-06-26 09:24:22    阅读次数:202
用Python提取XML里的内容,存到Excel中
最近做一个项目是解析XML文件,提取其中的chatid和lt、timestamp等信息,存到excel里。1.解析xml,提取数据使用python自带的xml.dom中的minidom(也可以用lxml)xml文件如下:minidom.parse()#解析文件,返回DOM对象_get_documen...
分类:编程语言   时间:2015-06-17 21:15:17    阅读次数:545
754条   上一页 1 ... 68 69 70 71 72 ... 76 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!