1 # coding:utf-8 2 print('正在初始化...') 3 import requests 4 import re 5 from lxml.html import fromstring 6 import pyautogui 7 import sys 8 import os 9 f....
分类:
编程语言 时间:
2015-08-15 14:49:39
阅读次数:
290
转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有BeautifulSoup和lxml.html,其中前者可能更知名一点吧,熊猫开始也是使用的BeautifulSo...
分类:
编程语言 时间:
2015-08-15 01:24:01
阅读次数:
236
import lxml.etree as et xml=""" apple pear strawberry blueberry starfruit mango peach """ tree=et.fromstring(xml) for bad in tree.xpath("//fruit[@stat...
分类:
其他好文 时间:
2015-07-29 15:27:44
阅读次数:
159
项目需要用脚本生成sitemap,中间学习了一下sitemap的格式和lxml库的用法。把结果记录一下,方便以后需要直接拿来用。安装lxml首先需要pip install lxml安装lxml库。
如果你在ubuntu上遇到了以下错误:
#include "libxml/xmlversion.h"compilation terminated.error: command 'x86_64-linu...
分类:
编程语言 时间:
2015-07-23 12:01:25
阅读次数:
232
import requestsfrom lxml import etreeurl = "http://avdb.la/actor/"headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...
分类:
编程语言 时间:
2015-07-18 00:26:23
阅读次数:
171
#?-*-?coding:?utf-8?-*-
from?HttpRequestModule?import?*?
import?os
import?json
import?traceback
import?codecs
from?lxml?import?etree
import?StringIO,?gzip?
import?sys
reloa...
分类:
编程语言 时间:
2015-07-16 22:44:50
阅读次数:
179
暑假记录datework2015/7/13-2015/7/14win下安装scrapy 安装流程: 重新安装python2.7 安装pip,easy_install 使用pip安装lxml,pyOpenSSL,Zope.Interface,twisted,pywin32 注意所有的系统版本...
分类:
其他好文 时间:
2015-07-16 19:37:16
阅读次数:
170
Python 中使用Xpath不可避免地需要倒入lxml模块。
不过现在Python所面临的一个主要问题是他有两个主流的版本2.7和3.42.7是相对稳定的版本,许多模块在2.7上的支持性都非常好。
3.4相对来说,笔者认为更加标准和规范化,比如说默认的精确除法,以及print的括号等。
但3.4美中不足的便是对一些模块的支持行不是很好,比如:scrapy,lxml等笔者使用的Python3...
分类:
编程语言 时间:
2015-07-11 09:12:28
阅读次数:
186
1. 理解网页上的数据
网页上的数据主要有:
HTML
XHTML
XML
JSON
需要一个接受数据并解析的机制
需要一个产生数据并发送的机制
2. 解析HTML
层次化的数据
有多个解析HTML的第三方库,例如:LXML,BeautifulSoup,HTMLParser等等。
解析HTML所面临的问题:
没有统一的标准。
很多网页并没有遵循HTML文档
2.1 BeautifulSoup...
分类:
编程语言 时间:
2015-06-26 09:24:22
阅读次数:
202
最近做一个项目是解析XML文件,提取其中的chatid和lt、timestamp等信息,存到excel里。1.解析xml,提取数据使用python自带的xml.dom中的minidom(也可以用lxml)xml文件如下:minidom.parse()#解析文件,返回DOM对象_get_documen...
分类:
编程语言 时间:
2015-06-17 21:15:17
阅读次数:
545