码迷,mamicode.com
首页 >  
搜索关键字:lxml    ( 754个结果
python爬虫使用lxml解析数据编码乱码问题
问题状况: response = requests.get(url=url, headers=headers).text html = etree.HTML(response) name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0] ...
分类:编程语言   时间:2020-07-28 14:08:09    阅读次数:87
xpath解析基础
#!/usr/bin/python from lxml import etree if __name__ == "__main__": #实例化一个etree对象,且将被解析的源码加载到了该对象中 tree = etree.parse('test.html') r = tree.xpath('./h ...
分类:其他好文   时间:2020-07-28 10:13:54    阅读次数:68
xpath案例-58二手房
#!/usr/bin/python import requests from lxml import etree #需求:爬取58二手房中的房源信息 if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows N ...
分类:其他好文   时间:2020-07-28 10:12:45    阅读次数:79
xpath案例-全国城市名爬取
#!/usr/bin/python import requests from lxml import etree #项目需求:解析出所有的城市名称https://www.aqistudy.cn/historydata/ if __name__ == "__main__": # headers = { ...
分类:其他好文   时间:2020-07-28 10:10:33    阅读次数:61
古诗文网验证码识别
#!/usr/bin/python import requests from lxml import etree from codeClass import YDMHTTP #封装识别验证码图片的函数 def getCodeText(imgPath,codeType): pass #将验证码下载到本 ...
分类:其他好文   时间:2020-07-28 10:10:21    阅读次数:95
模拟登录人人网
#编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #1.对验证码图片进行捕 ...
分类:其他好文   时间:2020-07-28 10:08:07    阅读次数:164
获取人人网当前用户的个人详情页数据
#编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #创建一个session ...
分类:其他好文   时间:2020-07-28 10:07:17    阅读次数:75
线程池在爬虫案例中的应用
import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求:爬取梨视频的视频数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows ...
分类:编程语言   时间:2020-07-28 10:02:06    阅读次数:77
Xpath学习
一:基本操作 1 from lxml import etree 2 text = ''' 3 <div> 4 <ul> 5 <li class="item-0"><a href="link1.html">first item</li> 6 <li class="item-1"><a href="li ...
分类:其他好文   时间:2020-07-16 22:04:45    阅读次数:89
利用Python爬取fofa网页端数据
代码如下: python fofa.py -s=title="你的关键字" -o="结果输出文件" -c="你的cookie" 代码如下: import requests,time,base64,fire from lxml import etree def fofasc(s,o,c): try: ...
分类:编程语言   时间:2020-07-12 16:27:23    阅读次数:106
754条   上一页 1 2 3 4 5 6 ... 76 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!