问题状况: response = requests.get(url=url, headers=headers).text html = etree.HTML(response) name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0] ...
分类:
编程语言 时间:
2020-07-28 14:08:09
阅读次数:
87
#!/usr/bin/python import requests if __name__ == "__main__": url = 'https://sogou.com' response = requests.get(url=url) page_text = response.text prin ...
分类:
其他好文 时间:
2020-07-28 10:18:26
阅读次数:
68
import requests #UA伪装: #UA:User-Agent(请求载体的身份标识)检测: #门户网站的服务器会检测对应请求的身份载体标识,如果检测到请求的载体身份标识为某一款浏览器 #说明该请求是一个正常的请求,但是,如果检测到请求的载体身份标识不是某一款浏览器的,则表示该请求不是正常 ...
分类:
Web程序 时间:
2020-07-28 10:17:22
阅读次数:
79
import requests import json if __name__ == "__main__": url = 'https://movie.douban.com/j/chart/top_list' param = { 'type':'24', 'interval_id':'100:90' ...
分类:
其他好文 时间:
2020-07-28 10:16:51
阅读次数:
79
#!/usr/bin/python import requests from lxml import etree #需求:爬取58二手房中的房源信息 if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows N ...
分类:
其他好文 时间:
2020-07-28 10:12:45
阅读次数:
79
#!/usr/bin/python import requests from lxml import etree #项目需求:解析出所有的城市名称https://www.aqistudy.cn/historydata/ if __name__ == "__main__": # headers = { ...
分类:
其他好文 时间:
2020-07-28 10:10:33
阅读次数:
61
#!/usr/bin/python import requests from lxml import etree from codeClass import YDMHTTP #封装识别验证码图片的函数 def getCodeText(imgPath,codeType): pass #将验证码下载到本 ...
分类:
其他好文 时间:
2020-07-28 10:10:21
阅读次数:
95
#编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #1.对验证码图片进行捕 ...
分类:
其他好文 时间:
2020-07-28 10:08:07
阅读次数:
164
#编码流程: #1.验证码的识别,获取验证码图片的文字数据 #2.对post请求进行发送(处理请求函数) #3.对响应函数进行持久化存储 import requests from lxml import etree from CodeClass import YDMHttp #创建一个session ...
分类:
其他好文 时间:
2020-07-28 10:07:17
阅读次数:
75
import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求:爬取梨视频的视频数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows ...
分类:
编程语言 时间:
2020-07-28 10:02:06
阅读次数:
77