import urllib.request import urllib.parse from lxml import etree def loadPage(url): """ 作用:根据url发送请求,获取服务器响应文件 url: 需要爬取的url地址 """ #print url #美女 # he ...
分类:
编程语言 时间:
2018-02-05 20:02:01
阅读次数:
174
实验网站:虾米音乐排行榜 网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request、lxml的etree (安装lxml:pip install lxml) IDEA开发工具:PyCharm_2017.3 Python版本:Python3 期望结果 ...
分类:
其他好文 时间:
2018-02-03 21:54:20
阅读次数:
225
语言:python 环境:ubuntu 爬取内容:steam游戏标签,评论,以及在 steamspy 爬取对应游戏的销量 使用相关:urllib,lxml,selenium,chrome 解释: 流程图如下 1.首先通过 steam 商店搜索页面的链接,打开 steam 搜索页面,然后用如下正则表达 ...
分类:
其他好文 时间:
2018-02-03 20:57:03
阅读次数:
496
pywin32下载地址安装 https://github.com/mhammond/pywin32/releases 安装wheel pip3 install wheel pip3 install pyopenssl pip3 install lxml 安装Visual C++ 14.0 http: ...
分类:
其他好文 时间:
2018-02-01 00:25:26
阅读次数:
267
个人觉得使用BeautifulSoup匹配网页标签内容比re更容易一些,re的规则比较多而且有些使用方法比较难,很容易匹配不到 而soup方法在处理网页标签就特别容易,这和urllib.request.urlopen()和request.get()一样,后者要容易一些: 1.re 正则表达式 编译模 ...
分类:
其他好文 时间:
2018-01-27 11:25:30
阅读次数:
1418
XML处理: pip3 install lxml 文本处理:pip3 install requests OpenSSL:pip3 install pyOpenSSL twisted:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载 Twis ...
分类:
编程语言 时间:
2018-01-25 13:14:09
阅读次数:
280
lxml是个非常有用的python库,它可以灵活高效地解析xml,与BeautifulSoup、requests结合,是编写爬虫的标准姿势。 参考 "Windows下如何安装python第三方库lxml" 文章记于16年,此篇文章对此更新并加以细节解释 工具/原料 + python + pip +我 ...
分类:
编程语言 时间:
2018-01-23 00:47:32
阅读次数:
238
据我所知,python 3.5之后的lxml模块里面不再包含etree,那么要怎么解决这个问题呢? lxml模块下的etree函数的使用问题,部分lxml模块不再支持etree方法,因此只能想办法下载了etree,我的python版本是3.6,默认使用pip安装lxml,其版本是3.8.0,然后我尝 ...
分类:
编程语言 时间:
2018-01-21 00:14:14
阅读次数:
563
BeautifulSoup 不支持XPath,lxml、Selenium、Scrapy 支持。 在XPath 语法中有四个重要概念。 根节点和非根节点 /div 选择 div 节点,只有当它是文档的根节点时 //div 选择文档中所有的 div 节点(包括非根节点) 通过属性选择节点 //@href ...
分类:
其他好文 时间:
2018-01-19 15:36:59
阅读次数:
1135
from urllib import request from lxml import etree # url = '''http://bangumi.tv/anime/browser?sort=rank''' # response = request.urlopen(url) # html = r... ...
分类:
其他好文 时间:
2018-01-11 19:14:49
阅读次数:
179